تشویق مدل به فکر کردن بیشتر، تنها با اضافه کردن Wait به دستور!محققان دانشگاه استنفورد یک روش جدید برای بهینهسازی مدلهای زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدلهای بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدلهای موفق در این حوزه مثل DeepSeek r1 از دادههای آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده میکنن.
محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (دادههای با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدلهای پایه نمیتونن حل کنن) و تنوع (پوشش حوزههای مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم دادههای آموزشی، مدل بتونه عملکرد خوبی داشته باشه.
تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل میکنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف میشه و مدل مجبور به ارائه پاسخ میشه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق میشه تا بیشتر روی مسئله تمرکز کنه.
در آزمونهای مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمونهای ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون میده این مدل میتونه با مدلهای بزرگتر رقابت کنه.
نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدلهای مشابه که نیاز به روزها و هفتهها آموزش دارن، بسیار کمتره. این نشون میده که با روشهای هوشمندانه میشه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.
محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخها بهبود پیدا میکنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون میده که حتی بعد از آموزش هم میشه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.
نسخه کامل این مقاله رو میتونید از
اینجا مشاهده کنید.
@aipulse24