برای سالها، High-Flyer در حال ذخیرهسازی پردازندههای گرافیکی و ساخت ابررایانههای Fire-Flyer برای تجزیه و تحلیل دادههای مالی بود. سپس، در سال ۲۰۲۳، لیانگ، که دارای مدرک کارشناسی ارشد در علوم کامپیوتر است، تصمیم گرفت منابع را در شرکت جدیدی به نام DeepSeek سرمایه گذاری کند که مدل های پیشرفته خود را بسازد. در اکتبر ۲۰۲۲، ایالات متحده شروع به تنظیم کنترلهای صادراتی کرد که شرکتهای چینی هوش مصنوعی را از دسترسی به تراشههای پیشرفته مانند H100 انویدیا به شدت محدود میکرد. این حرکت مشکلی برای DeepSeek ایجاد کرد. شرکت با ذخیره 10000 H100 شروع به کار کرده بود، اما برای رقابت با شرکت هایی مانند OpenAI و meta به تعداد بیشتری نیاز داشت. لیانگ: "مشکل ما هرگز تامین مالی نبوده، بلکه کنترل صادرات تراشه های پیشرفته است" ... DeepSeek مجبور بود روش های کارآمدتری برای آموزش مدل های خود ارائه دهد. وندی چانگ، مهندس نرم افزار: «DeepSeek معماری مدل خود را با استفاده از زنجیره ای از ترفندهای مهندسی بهینه کردند - طرح های ارتباطی بین تراشه ها، کاهش اندازه فیلدها برای صرفه جویی در حافظه و استفاده نوآورانه از رویکرد ترکیبی از مدل ها را بکار گرفتند. بسیاری از این رویکردها ایدههای جدیدی نیستند، اما ترکیب موفقیتآمیز آنها برای تولید یک مدل پیشرفته، یک شاهکار قابل توجه است» ... DeepSeek همچنین در زمینه Multi-head Latent Attention و Mixture-of-Experts، دو طرح فنی که مدلهای DeepSeek را با نیاز به منابع محاسباتی کمتر برای آموزش مقرون به صرفهتر میکنند، پیشرفت چشمگیری داشته است. به گفته موسسه تحقیقاتی Epoch AI، در واقع، آخرین مدل DeepSeek آنقدر کارآمد است که برای آموزش به یک دهم قدرت محاسباتی مدل Llama 3.1 متا نیاز دارد.
به گفته لیانگ، زمانی که تیم تحقیقاتی DeepSeek را گرد هم آورد، به دنبال مهندسان با تجربه برای ساخت محصولی برای مصرفکننده نبود. در عوض، او بر دانشجویان دکترا از دانشگاههای برتر چین، از جمله دانشگاه پکن و دانشگاه تسینگهوا که مشتاق اثبات خود بودند، تمرکز کرد. پست های فنی اصلی ما عمدتا توسط افرادی پر می شود که امسال یا در یکی دو سال گذشته فارغ التحصیل شده اند. نوترینو: سازندگان این مدل حتی تحصیل کرده آمریکا هم نبودند!
نوترینو: بی دلیل نبود که امروز ارزش سهام انویدیا ۵۰۰ میلیارد دلار سقوط کرد، به عبارت دیگر با همان کارتهای گرافیکی برای استخراج بیت کوین میتوانید مدلهای پیشرفته هوش مصنوعی بسازید، به ویژه وقتی که یک استارت آپ میتواند بسازد. چینیها با مجموعهای از اقدامات به ویژه با توجه به طراحی نوین مدلهای هوش مصنوعی و کار در قالب اوپن سورس موفق شدند که با همان تراشههای گرافیکی معمولی هم مدلهای خود را آموزش بدهند، به عبارت دیگر، دیگر نیاز به تراشههای فوق پیشرفته مورد نیاز این مدلها با چند صد میلیارد و چند ده و چند صد تریلیون پارامتر نیست. باز به عبارت دیگر، یعنی هر کشور باهوشی میتواند مدلهای هوش مصنوعی پیشرفته تولید کند و این ضربه سختی بود که چینیها به آمریکاییها زدند و آمریکاییها باید بترسند، پتانسیل چینیها هنوز تازه خود را تمام و کمال نشان نداده است و چینیها هم باید هوشمندانه عمل کنند و خود را درگیر جنگ نکنند! با این روند هوش مصنوعی یک انقلاب در انقلاب را تجربه کرد و جای امام خوبان و انقلابی هم خالی است!
https://www.wired.com/story/deepseek-china-model-ai/@Neutrino_X