اخیرا نسخه سوم مدل خودش بنام DeepSeek V3رو منتشر کرد که در حال حاضر بهترین عملکرد در بین مدل های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.
نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.
امشب در این مورد بحث خواهیم کرد و به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.
مهم ترین نوآوری های این معماری به ترتیب:
✅Multi-head latent attention
✅Mixture-of-experts
✅Auxiliary-loss-free load balancing
✅Multi-token prediction
هستند که به مرور بحث خواهیم کرد.
🔅Multi-head latent attention
مهم ترین نوآوری معماری در DeepSeek برای استنتاج متن های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روشهای معرفی شده grouped-query attention و multi-query attention هست.
ادامه دارد...
نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.
امشب در این مورد بحث خواهیم کرد و به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.
مهم ترین نوآوری های این معماری به ترتیب:
✅Multi-head latent attention
✅Mixture-of-experts
✅Auxiliary-loss-free load balancing
✅Multi-token prediction
هستند که به مرور بحث خواهیم کرد.
🔅Multi-head latent attention
مهم ترین نوآوری معماری در DeepSeek برای استنتاج متن های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روشهای معرفی شده grouped-query attention و multi-query attention هست.
ادامه دارد...