برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست:
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...