این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی میکنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به طور پویا افزایش بده.
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining