Tensorflow(@CVision)


Channel's geo and language: Iran, Persian
Category: Technologies


اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت دوره
http://class.vision
👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Related channels  |  Similar channels

Channel's geo and language
Iran, Persian
Statistics
Posts filter




بخش دوم به چالش پراکندگی بالا و راه‌حلAuxiliary Loss اختصاص داره:

مشکل پراکندگی بالا: خب، هر چیزی یک خوبی ‌هایی داره و یک بدی ‌هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط  تعداد کمی از خبرگان برای هر وظیفه فعال می ‌شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.

یعنی همیشه در حالت استراحت بمونن و هیچ‌ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه‌ ظرفیتش استفاده نمی ‌شه.

راه‌ حل معرفی Auxiliary Loss هست:

جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می‌ شه. این جریمه باعث می‌ شه که مدل مجبور شه همه‌ ی خبرگان رو در طول آموزش فعال کنه و از همه ‌شون استفاده کنه.نتیجه این کار باعث می‌شه که همه ‌ی خبرگان به خوبی آموزش ببینن و مدل قوی ‌تر بشه.(در قالب پارامتر گاما)

و بخش سوم به بهینه‌ سازی‌های سطح پایین اختصاص داره:

DeepSeek
 فقط به MoE و Auxiliary Loss اکتفا نکرده. اون‌ها رفتن سراغ بهینه ‌سازی ‌های خیلی سطح پایین ‌تر!

اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.  

اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیاده‌سازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده می‌کنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه ‌تر کنه.

دوم استفاده از دستورالعمل‌های PTX:

این تیم از دستورالعمل‌های PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سخت‌افزار GPU  هست، برای مدیریت نحوه زمان‌بندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیق‌تری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.

 این بهینه‌سازی‌های سطح پایین باعث شدن که مدل‌های DeepSeek بتونن با سخت‌افزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.


اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا:

یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن.

وقتی یک سوال یا وظیفه جدید به این تیم داده می‌ شه، فقط چند تا از متخصص ‌هایی که بیشترین ارتباط رو با اون سوال دارن، فعال می‌ شن و بقیه در حالت استراحت باقی می ‌مونن.

این کار باعث می‌ شه که بتونیم مدل‌ های خیلی بزرگ و پیچیده‌ای رو بسازیم، بدون اینکه نیاز باشه همه‌ ی بخش‌های مدل همیشه فعال باشن.

 بلاگ زیر به صورت فنی-بصری ترکیب خبرگان در مدل های زبانی رو به تفضیل و به بهترین شکل ممکن توضیح میده:

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
 
حالا سوال اینجاست که نوآوری DeepSeek کجاست و چیکار کرده، چون گوگل چند سال پیش در حال توسعه‌ مجموعه‌ ای از مدل ‌ها بود، که با Switch Transformer در سال ۲۰۲۱ شروع شد. 

در واقع تیم DeepSeek اومدن تعداد خبرگان رو خیلی زیاد کردن (۲۵۶ تا)، اما در عین حال، تعداد خبرگانی که برای هر وظیفه فعال می ‌شن رو خیلی کم نگه داشتن (فقط ۸ تا).

به این میگن "پراکندگی بالا High Sparsity" یعنی از بین اون همه متخصص، فقط تعداد خیلی کمی فعال میشن.

این خیلی با مدل‌ های دیگه فرق داره، در مدل‌های دیگه، معمولاً از بین ۸ تا متخصص، ۲ تاشون فعال میشن اگه اشتباه نکنم توی مدل متن باز mixtral 8x7b این کار انجام شد اماDeepSeek اومده این نسبت رو خیلی تغییر داده.

اما چرا این کار رو کردن؟ خوب این کار چند تا فایده داره:

✅ اول این کار باعث افزایش ظرفیت مدل میشه. با داشتن تعداد خیلی زیاد متخصص، مدل میتونه اطلاعات و دانش خیلی بیشتری رو در خودش ذخیره کنه.

✅ مزیت دوم کاهش محاسبات هست، چون فقط تعداد کمی از خبرگان فعال میشن، حجم محاسباتی که برای هر وظیفه انجام میشه، خیلی کمتره. این به DeepSeek کمک میکنه که بتونه با سخت ‌افزار محدودتر، مدل‌ های بزرگتری رو آموزش بده.

ادامه دارد...


بحث قبلی رو امشب ادامه بدیم.

دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید.

موضوع بحث بیشتر در مورد این بود که چطور این شرکت تونسته با وجود محدودیت در منابع سخت‌افزاری، مدل‌های زبانی بزرگ و قدرتمندی رو آموزش بده.

خوب تیم DeepSeek برای این کار، از چند تا ترفند و نوآوری جالب استفاده کردن.
این تیم  با استفاده از ترکیبی از نوآوری‌ها مثل MoE با پراکندگی بالا و Auxiliary Loss و بهینه‌ سازی‌های سطح پایین مثل کتابخانه NCCL اختصاصی و دستورالعمل‌هایPTX، نشون دادن که حتی با منابع محدود هم میشه مدل‌های زبانی بزرگ و قدرتمندی رو آموزش داد.

این موضوع نشون میده که همیشه لازم نیست بهترین و گرون ‌ترین سخت‌ افزار رو داشته باشیم، بلکه با خلاقیت میشه کارهای بزرگی انجام داد.

https://www.youtube.com/watch?v=aAfanTeRn84


ادامه دارد...


Video is unavailable for watching
Show in Telegram
مدل ترجمه همزمان گفتار به گفتار Hibiki، صحبت‌های شما رو از فرانسه به انگلیسی به صورت زنده ترجمه می‌کنه.

این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان می‌کنه.

Hibiki
در مقایسه با سیستم‌ های مشابه قبلی، ترجمه‌ های دقیق‌ تر، طبیعی‌ تر و با صدای شبیه‌ تر به صدای شما ارائه می‌ده و تقریبا به خوبی یک مترجم انسانی عمل می‌کنه.

مقاله :

https://arxiv.org/abs/2502.03382

کد:

https://github.com/kyutai-labs/hibiki


دیپ سیک یک مدل ۱۶ میلیارد پارامتری MOE با نام DeepSeek-VL2 Small برای وظایف مختلف تولید متن منتشر کرد.

دموی مدل در huggingface :

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

2k 1 59 1 10

Video is unavailable for watching
Show in Telegram
🔥


۲۴ ساعت بعد، نسخه متن باز Deep Research توسط hugging face منتشر شد.

DeepResearch
از دو بخش اصلی تشکیل شده است:

یک مدل زبانی بزرگ: این مدل می‌تونه از لیست مدل‌های زبانی بزرگی که توسط OpenAI ارائه می‌شه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفه‌ی پردازش زبان طبیعی و تولید متن رو بر عهده داره.

دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی می‌کنه. این بخش، DeepResearch رو قادر می‌سازه تا به طور هوشمندانه‌ تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک می‌کنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه

نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.

https://huggingface.co/blog/open-deep-research


Video is unavailable for watching
Show in Telegram
محققان چینی مدل OmniHuman را منتشر کردند.
این مدل می‌تواند ویدیوهای واقع‌گرایانه از انسان‌ها را در هر نسبت ابعاد و اندازه‌ی بدن، تنها با استفاده از یک تصویر و صدا ایجاد کند.

این مدل به‌طور چشمگیری مدیریت حرکات و ژست‌ها را بهبود می‌بخشد، که چالشی برای روش‌های موجود محسوب می‌شود، و نتایج بسیار واقع‌گرایانه‌ای تولید می‌کند.

https://omnihuman-lab.github.io/

2.5k 0 149 4 43

یک نکته‌ی بسیار برجسته در Deep Research، تفاوت چشمگیر بین زمان صرف‌ شده برای انجام کار در مقایسه با انسان بود. طبق تخمین‌های برخی از کارکنان OpenAI، به نظر می‌رسه که این تفاوت در حال حاضر تقریبا ۱۵ برابره. اهمیت این موضوع از اونجاست که به پرسشی بزرگ در مورد خودکارسازی وظایف شناختی پاسخ میده و اون سوال اینه که چه زمانی هزینه‌ی انجام کار توسط هوش مصنوعی برابر یا ارزان‌ تر از پرداخت به انسان خواهد بود؟

چند ماه پیش که نتایج o3 منتشر شد هنگامی که به هزینه‌های اجرای o3 روی ARC AGI نگاه می‌ کردیم، به نظر می‌رسید که هنوز چندین مرتبه از این نقطه فاصله داریم، اما به نظر Deep Research داره نشون میده که ما بسیار نزدیک‌ تر از آنچه ابتدا به نظر می‌رسید، هستیم. این حالت به زودی برای کاربران حرفه‌ای با ۱۰۰ پرسش در ماه در دسترس خواهد بود، بنابراین در حال حاضر ما با حدود ۲ دلار برای چندین ساعت کار روبرو هستیم، که از همین حالا یک مرتبه ارزان‌تر از انسان، در این مورد خاصه.

اگر مدل‌های اپراتور پیشرفته‌ تری رو تصور کنیم که بتونن تمام وظایف یک شغل اداری با مهارت پایین‌تر رو انجام بدن، اما ۳ هفته کار رو در یک روز کاری کامل کنند، تصور اینکه چگونه هزینه نیروی کار به سرعت نزدیک به صفر بشه، دور از ذهن نیست


اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحله‌ای در اینترنت برای وظایف پیچیده" انجام بدن. 

این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل اعتماد، کارآمد و مستقل خواهند بود. این ویژگی برای افرادی که کارهای دانش‌محور فشرده در زمینه‌هایی مانند مالی، علم، سیاست و مهندسی انجام می‌دهند و به تحقیقات کامل، دقیق و قابل اعتماد نیاز دارند، ساخته شده.

حالت  Deep research، یک مقاله تحقیقاتی جامع و کاملا مستند به کاربر ارائه می‌ده، چیزی که اساسا یک تحلیلگر یا یک متخصص در یک زمینه ممکن است برای شما تهیه کنه.

https://openai.com/index/introducing-deep-research/


Forward from: Class vision
📢 اطلاعیه مهم

دوستان و همراهان عزیز، سلام 🌹

به اطلاع می‌رسانیم به دلیل یکسان‌سازی قیمت دوره‌های مشترک در پلتفرم‌های آموزشی مختلف (نظیر مکتب خونه) و همچنین تغییرات قیمت در بازار، ناگزیر به افزایش 30 درصدی قیمت برخی از دوره‌ها روی سایت کلاس ویژن شده‌ایم.

🎁 خبر خوب:
برای اینکه شما عزیزان بتوانید با همان قیمت‌های قبلی از دوره‌ها استفاده کنید، تا تاریخ 25 بهمن ماه، تخفیف ویژه‌ای در نظر گرفته‌ایم و می‌توانید دوره‌ها را با قیمت قبلی از سایت کلاس ویژن تهیه نمایید. موقتا قیمت قبلی در قالب تخفیف فرصت ویژه روی دوره ها اعمال شده است.

⏰ فرصت محدود است!
پیشنهاد می‌کنیم اگر قصد تهیه دوره‌ها را دارید، از این فرصت استثنایی استفاده کنید.

با تشکر از همراهی شما
#کلاس_ویژن




OAI
 نسخه‌ی o3-Mini را منتشر کرد و با این اقدام هوش مصنوعی با استدلال هوشمندتر، سریع‌تر و ارزان‌تر را در اختیار کاربران قرار می‌دهد.

همه کاربران می‌توانند از طریق دکمه‌ی جدید «Reason» از آن استفاده کنند

https://openai.com/index/openai-o3-mini


مشکل اصلی روش‌هایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله می‌کنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر!

اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه.

به عبارت دیگه، تونستن هم حافظه رو کم کنن و هم کیفیت رو حفظ کنن و هم اندازه مدل رو بزرگ کنن که خیلی مهمه!

روش Multi-head latent attention با ترکیب فاکتورگیری رتبه پایین(Low-Rank Factorization
) و بردارهای پنهان، هم حجم حافظه را کاهش میده و هم عملکرد مدل رو حفظ میکنه.

فاکتورگیری رتبه پایین یعنی یه ماتریس بزرگ رو به دو تا ماتریس کوچک ‌تر تبدیل می‌کنیم. این کار تعداد پارامترها رو کم می‌کنه. البته، یه سری معایب هم داره مثل اینکه محاسبات بیشتر می شه و ممکنه یه مقدار از اطلاعات ماتریس اصلی رو از دست بدیم. 

در واقع، یه جورایی داره حافظه رو با محاسبات "معاوضه" می ‌کنه. این روش برای مواردی که محدودیت اصلی حافظه هست مثل fine-tuning و کاهش کش KV خیلی مفیده.

هدف اینجا هم اینه که تا جایی که ممکنه عملکرد مدل حفظ بشه و در عین حال حجم کش KV هم کم شه.

دلیل موثر بودن این روش، همپوشانی اطلاعات بین attention head های مختلفه. attention head های مختلف به اطلاعات مشابهی نیاز دارن. روش‌های دیگه مثل GQA هم از این همپوشانی استفاده می‌ کنن، اما به شکل ناکارآمد. 

اونها head هایی که با هم گروه‌ بندی شدن رو مجبور می کنن که به پرسش‌ ها جواب‌های مشابهی بدن، که کارآمد نیست. اما روش DeepSeek این مشکل رو نداره و اجازه میده که headهای مختلف از یه اطلاعات یکسان به روش‌های خیلی متفاوت استفاده کنن.

اگر علاقه مندید توضیحات جامع تر به همراه نمایش بصری رو در لینک زیر مشاهده کنید:

https://planetbanatt.net/articles/mla.html
 

3k 0 49 2 23

روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست.

در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری  Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود.

در معماری GQA، تعداد بردارهای K و V منحصر به فرد برابر با یک ابرپارامتر G است که تعداد گروه‌ها ست.

به عنوان مثال، اگر تعداد  head ۴ باشه و Gیا گروه ها برابر با 2 باشه، دو مجموعه منحصر به فرد از بردارهای K و V وجود خواهد داشت که هر کدام توسط دو head استفاده میشن.

https://arxiv.org/abs/2305.13245

این روش در مقایسه با روش قبلی، بهبود جزئی در عملکرد ارائه میده اما در واقع، هنگام کار در یک محیط چند GPU با موازی‌ سازی تنسور، میتونیم اساسا دستاورد عملکردی رو به صورت رایگان با تنظیم G برابر با تعداد GPUها به دست بیاریم همچنین مشکل کارایی پایین MQA در خلاصه سازی متون رو برطرف میکنه.

در این روش با توجه به مقدار قبل و فرض داشتن 8 گروه مقدار حافظه مورد نیاز در GPT3 برابر با 3.6GB میشه.

ادامه دارد....


یکی از روش ‌های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن.

مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به شکل چشمگیری کاهش دادن.

https://arxiv.org/pdf/1911.02150

در معماری Multi-Head Attention، هر head مجموعه منحصر به فردی از بردارهای Q، K و V رو محاسبه میکنه اما در معماری Multi-Query Attention، فقط بردارهای Q برای هر head منحصر به فرده، در حالی که بردارهای Key و Value بین همه head ها به اشتراک گذاشته میشه. 

در این حالت با توجه به فرمول قبل اندازه حافظه مورد نیاز به 468MB کاهش پیدا میکنه! اما مقاله زیر نشون میده که این روش مشکلاتی رو در وظایفی مثل خلاصه سازی متون رو میتونه به همراه داشته باشه و معماری Multi-Head Attention در این وظایف بهتر عمل میکنه.

https://arxiv.org/abs/2305.13245

همونطور که میدونید مدل هایی که از معماری transformer استفاده میکنن اغلب به حافظه بیشتری نسبت به مقدار حافظه ای که در یک GPU قرار داره، نیاز دارن بنابراین به نوعی از موازی ‌سازی برای آموزش و استنتاج نیاز داریم! موازی‌ سازی تنسور(Tensor Parallelism) روشی برای موازی ‌سازی مدل‌ های بزرگ تولید متن هست.

به طور خلاصه، موازی ‌سازی تنسور با اختصاص attention head مختلف به GPUهای مختلف کار میکنه.

برای مثال، مدل ۱۷۵ میلیارد پارامتری GPT-3 دارای ۹۶ head هست. میتونیم این مدل رو روی ۸ GPU با اختصاص ۱۲ head به هر کدام موازی کنیم.

هر GPU کل محاسبات attention رو برای head اختصاص داده شده خودش انجام میده، در نهایت همه GPUها نتایج محاسبات خودشون رو مبادله میکنن.

اما در معماری Multi-Query Attention، هر attention head روی مجموعه یکسانی از بردارهای K و V عمل میکنه و این یعنی ما مجموعه یکسانی از بردارهای K و V را روی هر GPU محاسبه و کش می‌کنیم.

https://arxiv.org/abs/1910.10683

ادامه دارد...


این روش برای طول متن‌های کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته ‌های تنسور بارگذاری کنیم.

اگر هر توکن نیاز داشته باشه که کل متن گذشته خودش رو بدونه، به این معناست که برای هر توکنی که تولید می‌کنیم، باید کل کش KV گذشته را ازکارت گرافیک بخونیم.

این کار به ویژه در متن‌های بالای چند هزار توکن میتونه مشکل‌ ساز شه و نیاز به روش‌هایی برای کاهش اندازه کش KV را ضروری میسازه.  

محاسبه مقدار حافظه مورد نیاز برای کش KV از طریق ضرب مقادیر زیر بدست میاد:

number of layers*batch size*number of attention heads*attention head size*sequence length

به عنوان مثال در GPT3 با 175 میلیارد پارامتر اندازه کش KV با batch size 1 و sequence length
10,000 توکن حافظه مورد نیاز برابر با 43GB هست!

توضیحات بیشتر در ویدیو زیر:

https://www.youtube.com/watch?v=80bIUggRJf4

ادامه دارد...


ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم.

هنگامی که یه مدل زبانی برای تولید متوالی توکن‌ ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن‌ های قبلی رو هنگام تصمیم‌ گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.

راه ساده اینه هر بار که میخوایم یه توکن جدید تولید کنیم، یک محاسبات رو به جلو شامل همه توکن ‌های گذشته رو انجام بدیم، اما این کار بسیار ناکارامده چون توکن‌ های گذشته قبلا توسط مدل زبانی پردازش شدن و با اینکار فقط داریم نتایج از قبل به ‌دست‌آمده رو مجددا محاسبه میکنیم.

برای جلوگیری از این محاسبه مجدد، ذخیره حالت داخلی مرتبط برای همه توکن‌های گذشته و سپس بازیابی نتایج از یک حافظه در صورت نیاز برای توکن‌ های آینده پیشنهاد میشه.

از اونجایی که تنها راه تاثیر توکن‌ های قبلی بر توکن‌ های آینده از طریق بردارهای Key و Value آنها در مکانیسم توجه هست، ذخیره این بردارها کافی به نظر میرسه که نام Key-Value cache یا به اختصار cache KV از اینجا میاد.

ادامه دارد ...


 اخیرا نسخه سوم مدل خودش بنام  DeepSeek V3رو منتشر کرد  که در حال حاضر بهترین عملکرد در بین مدل ‌های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.

نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت ‌افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.

امشب در این مورد بحث خواهیم کرد و  به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.

مهم ترین نوآوری های این معماری به ترتیب:

Multi-head latent attention 

✅Mixture-of-experts

✅Auxiliary-loss-free load balancing

✅Multi-token prediction
 

هستند که به مرور بحث خواهیم کرد.
 
🔅Multi-head latent attention 

 مهم‌ ترین نوآوری معماری در DeepSeek برای استنتاج متن‌ های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روش‌های معرفی شده grouped-query attention و multi-query attention هست.

ادامه دارد...

20 last posts shown.