Normal Fine-Grained Selectionاین بلوک نهایی، مرحله بررسی موشکافانه و دقیق تر بخش های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش های کلیدی متن تمرکز میکنه.
اما ایده کلی تقسیم مکانیزم attention به بخش های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):
https://arxiv.org/abs/2410.13276 اما از دو بعد نوآورانه هستش:
اول از بعد بهینه سازی سختافزاری:در این معماری مکانیسم
توجه به طور خاص برای سخت افزارهای
ویژه بهینه سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع تر بر روی سخت افزار انجام شن. این بهینه سازی سخت افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.
بعد دوم قابلیت Pretraining هست.
در متد های قبلی قابلیت sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم monolithic attention آموزش داده میشد، و بعد روشهای sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.
اما در این مقاله امکان
pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.
این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روشهای post-training رایج بود، جلوگیری بشه.
در واقع، از نظر تئوری با به کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست