#3891 post — Tensorflow(@CVision) (@cvision)

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

Tensorflow(@CVision)

11 Feb, 17:04

Telegram'da ochish Ulashish Shikoyat qilish

این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی می‌کنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به‌ طور پویا افزایش بده.

همونطور که مطلع هستین فضای نهان در مدل‌های عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگی‌های عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیره‌ای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.

به عبارت دیگه، به جای تولید توکن‌ های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.

این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به داده‌های آموزشی تخصصی یا پنجره‌های متنی بزرگ نیاز داشته باشه.

نویسندگان ادعا میکنن که به جای تولید توکن‌ های بیشتر که هم می‌ تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدل‌های بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.

https://arxiv.org/abs/2502.05171

کد:
https://github.com/seal-rg/recurrent-pretraining

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent...

We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby...