می شه گفت بیشتر پیشرفت های هوش مصنوعی نتیجه بهبود توان محاسباتی بوده، که بیشترش هم از کاهش دقت عددی برای سرعت بخشیدن به کارها (مثل رفتن از 32 بیت به 16 بیت و بعد 8 بیت) به دست اومده.
اما حالا به نظر می رسه که روند کوانتیزاسیون داره به انتهای خط میرسه، از طرفی وقتی این موضوع رو با محدودیت های فیزیکی (مثل مصرف انرژی) ترکیب کنیم، شرایطی به وجود میاد که انگار دیگه دوران بزرگ تر کردن مدل ها با افزایش قدرت محاسباتی داره به پایان میرسه.
به عبارتی بازدهی رو نمیشه دور زد. اگه کوانتیزاسیون دیگه جواب نده ، پس روشهایی مثل sparsification و سایر مکانیزمهای بهینهسازی هم جواب نخواهد داد و نیاز به یک تغییر پارادایم در این زمینه هستیم.
دیگه نمیشه تنها با افزایش قدرت و داده، کیفیت مدل ها رو بالا ببریم، بلکه باید هوشمندانه تر به موضوع نگاه کنیم و راههایی برای سازگاری با این محدودیتها پیدا کنیم.
برداشت من اینه که هرچه دانش بیشتری در وزن های مدل فشرده شه و این وزن ها بیانگر اطلاعات بیشتری از دادهها باشه، کوچک ترین تغییر یا آشفتگی در اونها میتونه اثرات ویران گر بیشتری داشته باشه. انگار هر چه یه ظرف رو پرتر کنیم، ثبات اون در برابر لرزش ها کمتر میشه، در نتیجه، مرزی وجود دارده که از اون به بعد، افزودن دانش بیشتر نه تنها مفید نیست، بلکه باعث شکنندگی بیشتر میشه.
این مقاله با عنوان Scaling Laws for Precision که به صورت مشترک توسط دانشگاه هاروارد، دانشگاه استنفورد و MIT منتشر شده، برای اولین بار روابط کمی میان دقت، تعداد پارامترها و حجم دادهها در مدل های زبانی بزرگ رو تعیین کرده و راهنمای نظری مهمی برای روندهای فعلی در توسعه مدل ها فراهم کرده.
https://arxiv.org/abs/2411.04330
اما حالا به نظر می رسه که روند کوانتیزاسیون داره به انتهای خط میرسه، از طرفی وقتی این موضوع رو با محدودیت های فیزیکی (مثل مصرف انرژی) ترکیب کنیم، شرایطی به وجود میاد که انگار دیگه دوران بزرگ تر کردن مدل ها با افزایش قدرت محاسباتی داره به پایان میرسه.
به عبارتی بازدهی رو نمیشه دور زد. اگه کوانتیزاسیون دیگه جواب نده ، پس روشهایی مثل sparsification و سایر مکانیزمهای بهینهسازی هم جواب نخواهد داد و نیاز به یک تغییر پارادایم در این زمینه هستیم.
دیگه نمیشه تنها با افزایش قدرت و داده، کیفیت مدل ها رو بالا ببریم، بلکه باید هوشمندانه تر به موضوع نگاه کنیم و راههایی برای سازگاری با این محدودیتها پیدا کنیم.
برداشت من اینه که هرچه دانش بیشتری در وزن های مدل فشرده شه و این وزن ها بیانگر اطلاعات بیشتری از دادهها باشه، کوچک ترین تغییر یا آشفتگی در اونها میتونه اثرات ویران گر بیشتری داشته باشه. انگار هر چه یه ظرف رو پرتر کنیم، ثبات اون در برابر لرزش ها کمتر میشه، در نتیجه، مرزی وجود دارده که از اون به بعد، افزودن دانش بیشتر نه تنها مفید نیست، بلکه باعث شکنندگی بیشتر میشه.
این مقاله با عنوان Scaling Laws for Precision که به صورت مشترک توسط دانشگاه هاروارد، دانشگاه استنفورد و MIT منتشر شده، برای اولین بار روابط کمی میان دقت، تعداد پارامترها و حجم دادهها در مدل های زبانی بزرگ رو تعیین کرده و راهنمای نظری مهمی برای روندهای فعلی در توسعه مدل ها فراهم کرده.
https://arxiv.org/abs/2411.04330