توییت این شخص در مورد DeepSeek رو حدودی ترجمه میکنم دستتون بیاد قضیه چیه؛
بریم با زبان سادهتر ببینیم چرا اختراعات AI دیپسیک همه رو انگشت به دهن گذاشته (و احتمالا مارکت کپ ۲ تریلیون دلاری انویددیا رو به خطر انداخته)
اول یکم زمینه رو توضیح بدیم: فعلا فرایند آموزش مدلهای AI به شدت پرهزینهست. انترپرایزهایی مثل OpenAI Anthropic و ... بیشتر از ۱۰۰ میلیون دلار فقط برای محاسبات خرج میکنن
پس نیاز به مراکز داده بسیار بزرگ با هزاران GPU چهل هزار دلاری دارن
انگار یه نیروگاه برق بسازی برای راهاندازی یک کارخونه
حالا DeepSeek اومده گفته «هه! اگه همه این کارها رو با ۵ میلیون دلار انجام دادم چی؟»
وحرف مفت هم نزده و واقعا این کار رو کرده!
مدل اونها توی تسکهای زیادی تونسته GPT-4 و Clause رو شکست بده
و این باعث شگفتی دنیای هوش مصنوعی شده!
چطور این کار رو کردن؟همه چیز رو از اول بازاندیشی کردن. هوش مصنوعیهای سنتی مثل اینن که هر عدد رو با ۳۲ اعشار مینویسن.
دیپسیک گفته« خب چرا با ۸ تا ننویسیم؟ تقریبا همون قدر دقیقه!»
بوم! ۷۵٪ کاهش در حافظه مورد نیاز!
بعد رفتن سراغ سیستم Multi token
هوش مصنوعیهای نرمال مثل یه بچه کلاس اولی میخونن: « بابا .... نان .... داد»
ولی دیپسیک کل جمله رو یکجا میخونه با سرعت ۲ برابر و دقت ۹۰٪
وقتی قراره میلیاردها کلمه رو تحلیل کنی این خیلی مهمه!
ولی قسمت هوشمندانهشون اینه:
یه چیزی ساختن مثل «سیستم تخصص»
به جای اینکه یه AI غولآسا همه چیز رو بدونه (مثلا یه آدم که هم دکتر باشه هم مهندس، هم جامعهشناس و ... )، فقط از متخصصینی استفاده میکنن که در مواقع نیاز فراخوانی میشن
مدلهای نرمال سنتی؟
تمام ۱.۸ تریلیون پارامتر در لحظه فعالن
دیپسیک؟
۶۷۱ بیلیون در مجموع داره که ۳۷ بیلیونش در لحظه فعالن
مثل این میمونه که تیم بزرگی داشته باشی ولی فقط اونی رو صدا بزنی که الان برای یک کاری بهش نیاز داری.
نتیجه حیرتانگیزه:
هزینه آموزش مدل: ۱۰۰ میلیون >> ۵ میلیون
تعداد GPU: صد هزار > دو هزار
هزینه API: نود و پنج درصد ارزونتر
میتونه روی کارت گرافیکهای گیمینگ هم ران بشه بدون نیاز به سختافزار مرکز داده
حالا ممکنه بگی «صبر کن ببینم! حتما یه ریگی توی کفششون هست!»اصلا قسمت جذاب داستان همینه: همهاش اپن سورسه! همه میتونن کارشون رو بررسی کنن. کدش عمومیه. راهنمای تکنیکال همه چیز رو توضیح میده. جادو جنبل نکردن، صرفا هوشمندانه مهندسی کردن.
چرا این داستان مهمه؟چون این فرض و مدل رو که «فقط کمپانیهای بزرگ میتونن توی عرصه AI بازی کنن» رو باطل میکنه
برای انویدیا این ترسناکه! کل مدل بیزنسشون بر مبنای این بود که با مارجین ۹۰ درصد GPU های فوق گرون بفروشن. حالا معلومه مشکل چیه اگه همه بتونن با GPUهای گیمینگ مدل هوش مصنوعی بسازن!
ضربه نهایی هم این بود:
دیپسیک این کار رو با تیمی کمتر از ۲۰۰ نفر انجام داد.
در حالیکه هزینههایی که متا برای حقوق کارکنانش میپردازه از کل بودجه آموزش دیپسیک بیشتره و مدلشون هم به این اندازه خوب نیست
یه داستان کلاسیک از شکستن وضع موجود:
در حالیکه بنگاههای مستقر دارن فرآیندهای موجودشون رو بهینهسازی میکنن، بتشکنها میان و کل پروسه رو از اول بازاندیشی میکنن
دیپسیک هم پرسید «چی میشه به جای اینکه هی سختافزار اضافه کنیم، این کار رو هوشمندانهتر انجام بدیم؟»
عواقبش چشمگیره:- دسترسی به توسعه هوش مصنوعی بیشتر میشه
- رقابت به شدت افزایش پیدا میکنه
- «سنگر»های بزرگ شرکتهای تکنولوژیک مثل دستاندازهای کوچیک جلوه می کنه
- نیازهای سختافزاری و هزینهها به شدت کم میشه
البته غولهایی مثل OpenAI و Anthropic بیکار نمیشینن. احتمالا همین الان هم شروع کردن به استفاده و به کارگیری این ابداعات. ولی غول بهرهوری از چراغ جادو اومده بیرون. دیگه نمیتونی برگردی به دورانی که هی سختافزار اضافه کنی.
به نظر میرسه این لحظه از اونهاست که بعدا به عنوان نقطه عطف بهش نگاه میکنیم. درست مثل موقعهایی که PCها کامپیوترهای بزرگ رو از رده خارج کردن، یا محاسبات ابری همه چیز رو تغییر داد.
هوش مصنوعی قراره باز هزینه بسیار کمتر، و به مقدار بیشتری در دسترس قرار بگیره.
سوال این نیست که آیا این باعث تغییر زمین بازیگران بزرگ این عرصه میشه یا نه، سوال اینه که با چه سرعتی این کار رو میکنه.
https://x.com/Cryptonut24/status/1883897510936314158