از DeepSeek-V3 بگیم که یه مدل با هزینه کم به حساب میاد.
یه آزمایشگاه چینی این مدل رو توی ۲ ماه با ۵.۵ میلیون دلار ساخته که میشه مقایسه کرد با آموزش GPT-4o با ۱۰۰ میلیون دلار هزینه.
در واقع میشه یه مدل AI اوپنسورس ترکیبی و (Mixture-of-Experts یا MoE). یعنی به جای یه مدل بزرگ که همهکاره باشه، میان چند تا مدل «تخصصی» کوچیکتر میسازن که با هم کار میکنن.
با ۱۴.۸ تریلیون توکن آموزش داده شده، از تکنیکهای جدیدی مثل Multi-Head Latent Attention (MLA) استفاده کردن.
برای توضیح این تکنیک باید به اصل «مفهوم توجه» یا همون Attention توی مدلهای زبانی نگاه کنیم.
در مدلهای زبانی، «توجه» یه مکانیزمه که به مدل اجازه میده تا روی کلمات مهمتر تمرکز کنه و کلمات کماهمیتتر رو نادیده بگیره. این بهش کمک میکنه ارتباط کلمات رو بیشتر بفهمه و جواب بهتری بده.
حالا MLA میاد با جنبههای مختلفی به متن نگاه میکنه و سعی میکنه اهمیت کلمات رو متوجه بشه، مثلا یه بار ممکنه به روابط گرامری نگاه کنه، یه بار به معنی کلمات نگاه کنه و ...
خروجی میشه درک بیشتر و مصرف کمتر GPU و منابع محاسباتی.
طراحی و آموزش این مدل هم روی چیپ NVIDIA H800 بوده که میشه یه مدل ارزون و محدود از H100 برای بازارهای تحریمی مثل چین.
از ویژگیهاش توانایی پردازش تا ۱۲۸۰۰۰ توکن در یه ورودی که برای کارهایی مثل بررسی اسناد قانونی و تحقیقات دانشگاهی خیلی خوبه. ین مدل ۶۷۱ میلیارد پارامتر داره، اما گفته میشه فقط ۳۷ میلیاردش برای انجام هر کار فعال میشه.
تو آزمونهای مختلف با مدلهای دیگه مثل Claude-3.5، GPT-4o، Qwen2.5 و Llama3.1 مقایسه شده و عملکرد خوبی داشته. به خصوص تو ریاضیات و کدنویسی، تو آزمونهایی مثل MATH-500 و LiveCodeBench از رقباش بهتر بوده. همچنین تو کارهایی که نیاز به درک متنهای طولانی داره خیلی خوبه.
@DevTwitter |