Tensorflow(@CVision)


Kanal geosi va tili: Eron, Forscha


اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت دوره
http://class.vision
👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Связанные каналы  |  Похожие каналы

Kanal geosi va tili
Eron, Forscha
Statistika
Postlar filtri


همینطور که داشتیم درباره انرژی پاک و ارزان بحث میکردیم و اهمیت این موضوع که انرژی ارزان قیمت چطور صنعت و به خصوص هوش مصنوعی رو در آینده متحول خواهد کرد مایکروسافت چیپ کوانتومی جدیدی به نام Majorana 1 رو معرفی کرد!

Majorana 1

اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.

این چیپ با بهره‌ گیری از ماده‌ای به نام topoconductor عمل می‌ کنه که به تولید کوبیت‌ های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس‌ پذیرتر کمک می‌ کنه.

هدف اصلی، ساخت سیستم‌ های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع‌ آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.

مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش‌ های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.

ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می‌ تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو می‌آموزه تا بتونه به‌ طور مستقیم دستورالعمل‌ های لازم برای طراحی مواد یا مولکول‌ها رو ارائه بده!

https://m.youtube.com/watch?v=wSHmygPQukQ


وارد جزییات نشیم مخلص کلام اینه که اگه پلاسما مدت زیادی حفظ نشه، انرژی وارد شده قبل از اینکه واکنش همجوشی به اندازه کافی رخ بده، از دست میره پس افزایش زمان نگهداری پلاسما یه مسئله کلیدی در دستیابی به همجوشی هسته‌ای پایداره.

آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینه‌ی همجوشی هسته‌ ای شناخته میشه. این آزمایشگاه توانسته بود زمان‌ قابل توجهی رو برای نگهداری پلاسما ثبت کنه.

اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهره‌گیری از فناوری‌ های نوین و استفاده از مغناطیس‌های ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!

این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته‌ ای، بلکه تاثیرات گسترده‌ای بر سایر حوزه‌های علمی از جمله مدل‌های زبانی و هوش مصنوعی در آینده خواهد داشت

https://m.youtube.com/watch?v=nAJN1CrJsVE

https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/


همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه.

اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی پر از آشوب و ناپایدار داره.

دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.

این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان می‌سوزن، ادامه داره، که نشون دهنده اشتیاق بی‌ پایان به کشف، تسخیر و بهره‌ برداری از رازهای طبیعته.

پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون‌ ها و الکترون‌ ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.

ادامه دارد...


نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم.

پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....

شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هسته‌ای پاک اون با شرکت Kairos Power.

https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/

راهکارهای هسته‌ ای، منبعی پاک و شبانه‌ روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن‌ زدایی شبکه‌های برق در سراسر جهان رو تسریع خواهد داد.

ادامه دارد...


Normal Fine-Grained Selection

این بلوک نهایی، مرحله بررسی موشکافانه و دقیق ‌تر بخش ‌های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش‌ های کلیدی متن تمرکز میکنه.

اما ایده کلی تقسیم مکانیزم  attention به بخش‌ های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):

https://arxiv.org/abs/2410.13276
 
اما از دو بعد نوآورانه هستش:

اول از بعد بهینه‌ سازی سخت‌افزاری:

در این معماری مکانیسم توجه به‌ طور خاص برای سخت‌ افزارهای ویژه بهینه‌ سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع ‌تر بر روی سخت ‌افزار انجام شن. این  بهینه ‌سازی سخت‌ افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.

بعد دوم قابلیت Pretraining  هست.

در متد های قبلی قابلیت  sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم  monolithic attention آموزش داده میشد، و بعد روش‌های sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.

اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.

این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روش‌های post-training رایج بود، جلوگیری بشه.

در واقع، از نظر تئوری با به‌ کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست


استفاده از Compressed Attention Blocks
برای درک زمینه کلی (Global Context)


از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ‌ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش‌ های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.

در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخش‌های متن هست و مدل به اونها توجه میکنه به بلوک‌های کوچک ‌تری تقسیم میشن.

سپس این بلوک‌ های کوچک‌ تر تحت فرآیند "فشرده‌سازی" قرار میگیرن. این فرآیند "فشرده‌سازی" میتونه با استفاده از تکنیک ‌های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه ‌تری از "زمینه کلی" متن آگاه شه.

انتخاب بلوک‌های برتر Top-N Blocks

پس از اعمال "فشرده‌سازی" ، مدل بلوک‌ های فشرده‌ شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک ‌هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.

عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوک‌های انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخش‌های مهم ‌تر متن رو برای بررسی دقیق‌تر جدا میکنه.

مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روش‌های قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخش‌های گزینش‌ شده و مهم متن اعمال میشه، نه کل متن.

compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخش‌های مهم ‌تر رو برای بررسی دقیق ‌تر و عمیق ‌تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.

ادامه دارد ...


برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم ‌بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست:

استفاده از Sliding Window برای درک زمینه محلی (Local Context)

زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.

به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.

در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره ‌بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.

با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به‌ طور کامل بررسی کنه.

مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع ‌تر و کارآمد تر متن هست، به ‌ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.

ادامه دارد...


بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل‌ های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.

به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف‌ ها رو تشخیص بده و پاسخ‌ های مرتبط ‌تری تولید کنه.

با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به‌ ویژه در پردازش متون طولانی ‌تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل‌ های زبانی بزرگ ‌تر و کارآمدتر محسوب میشه.

ادامه دارد ...


مقاله جدید از Deepseek

مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.

استراتژی سلسله‌ مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع‌ تر انجام میده، مثلاً در پردازش توالی‌های 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.

از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت می‌کنن.

https://arxiv.org/abs/2502.11089


هم اکنون لایو استریم انتشار Gork 3

بنچ مارک ها

https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM


مدل متن باز بعدی
o3-mini?🔥

مدل استدلالی که می‌تونه به عنوان نیروی محرکه برای بهبود مداوم در مدل‌های باز استفاده شه، و احتمالاً در صورت نیاز تا اندازه تلفن نیز کوچک شه یا یه مدل مخصوص edge device که شش ماه دیگه منسوخ میشه و برای هیچ چیز دیگه ای مفید نخواهد بود؟


این تحقیق فوق‌العاده از متا، که دست به همکاری با مرکز باسکی شناخت، مغز و زبان زده، قدم بزرگی توی راه ارتباط مستقیم بین مغز و نوشتار برداشته.


ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ می‌کردن، فعالیت‌های مغزشون با استفاده از دستگاه‌های MEG و EEG ضبط میشد.

پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنال‌های مغزی، جملات رو دوباره بسازن؛ به طرز حیرت‌آوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستم‌های EEG معمولی بوده!

این دستاورد، ادامه‌ کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه درب های تازه‌ای رو برای واسط‌ های مغز و کامپیوتر باز کرده.

https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/


Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
مایکروسافت OmniParser V2 رو به صورت متن باز منتشر کرد که به عنوان یک Agent ویندوز و مرورگر رو برای انجام وظایف داده شده از طریق دستورات کنترل می‌کنه.

این ابزار می‌تونه برای خودکار کردن وظایف مختلف در ویندوز و مرورگر استفاده شه. برای مثال، میتونید از اون برای باز کردن یک وب‌ سایت خاص، پر کردن فرم‌ ها، یا دانلود فایل‌ها از طریق پرامپت استفاده کنید

https://github.com/microsoft/OmniParser/tree/master/omnitool

2.9k 0 111 1 16

اجرای مدل‌ های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سخت‌افزارهای معمولی تقریبا غیر ممکنه. 

برای اجرای چنین مدل‌ هایی معمولا از نسخه‌های فشرده‌ شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمی‌تونیم به عملکرد واقعی مدل‌ های اصلی دست پیدا کنیم. 

اما با رویکرد جدید، تیم KVCache.AI
 اجرای این مدل زبانی بزرگ روی کارت گرافیک‌ هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان‌ پذیر شده.

این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه‌ پردازش‌ روی کارت گرافیک انجام شه، بخش‌ هایی از محاسبات رو روی CPU انجام میده.

براساس توضیحات درج شده در گزارش بخش‌ هایی از مدل که کمتر استفاده میشن (یعنی بخش‌های پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.  

بخش‌های اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه‌ شده Nvidia برای پردازش‌ های هوش مصنوعی روی GPU) پردازش میشن.

به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه‌ لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

5.4k 0 188 3 30

نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمی‌بینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتم‌ها و داده‌ها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه‌ داران فناوری و بازیگران سیاسی فرو می‌ ریزن.

مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.

https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope

 همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده‌ ها، بعد واقعی جهان را تغییر می‌ دادن، امروز این نقش در دست چهره‌ های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می‌ سازن.

در زمان‌هایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت می‌پرداخت، اما حالا با ظهور قدرت‌های نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم‌ آمیخته و درهم تنیده شدن. قدرت‌ هایی که با هوش مصنوعی و الگوریتم‌های پیشرفته، موجی از اطلاعات دستکاری‌ شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.

https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo


یه کم موضوع رو بازتر کنم.

شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.

گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.

به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی می‌کنه که یاد می‌گیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.

این بدان معناست که مدل می‌تونه هر زمان که با موضوع غافلگیر کننده‌ای مواجه میشه، خودش رو تطبیق بده و حافظه‌ خودش رو به‌ صورت آنی به‌ روزرسانی کنه.

برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش می‌کنن، این معماری یه رکورد عمیق‌ تر و دائمی‌تر، مشابه حافظه کوتاه‌مدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.

این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بی‌نهایت!

https://arxiv.org/abs/2501.00663

این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعیه با حافظه پایداره!

اگه خودآگاهی رو به عنوان توانایی مدل‌سازی درونی (خودمدل‌سازی)، سازماندهی، یکپارچه‌سازی و بازیابی داده‌ها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!

https://www.nature.com/articles/nrn.2016.44


وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون‌ قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوق‌العاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.

از یه طرف، فرصت‌ های فوق‌ العاده‌ای توی زمینه‌ های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه‌ ای در طول تاریخ بشر این‌ قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش‌ های جدی‌ هم هست که باید با دقت بهشون فکر کنیم و مدیریت‌ شون کنیم.

https://www.anthropic.com/news/paris-ai-summit


این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی می‌کنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به‌ طور پویا افزایش بده.

همونطور که مطلع هستین فضای نهان در مدل‌های عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگی‌های عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیره‌ای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.

به عبارت دیگه، به جای تولید توکن‌ های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.

این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به داده‌های آموزشی تخصصی یا پنجره‌های متنی بزرگ نیاز داشته باشه.

نویسندگان ادعا میکنن که به جای تولید توکن‌ های بیشتر که هم می‌ تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدل‌های بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.

https://arxiv.org/abs/2502.05171

کد:
https://github.com/seal-rg/recurrent-pretraining


گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras

گروه opencv مرتبط با کانال:
@opencv_py

کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision


هاگینگ فیس دوره ای تحت عنوان AI Agents برگذار می‌کنه.

این دوره به بررسی مفاهیم، طراحی، و پیاده‌سازی Agents هوش مصنوعی می‌ پردازه که شما با اصول اولیه، نحوه‌ی استفاده از کتابخانه‌های مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژه‌های کاربردی رو به‌ رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.

دوره به‌ طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه‌ ی اجرای دوره، مباحث، واحدها، چالش‌ها و سایر موارد توضیح داده میشه.

پیش نیازها:

دانش ابتدایی زبان برنامه‌نویسی Python

آشنایی مقدماتی با LLms

داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدل‌ها، Agents و ایجاد Spaces)

http://hf.co/learn/agents-course

5.3k 0 256 1 26
20 ta oxirgi post ko‘rsatilgan.