شركة DeepSeek الصينية من يومين أعلنت إنها نجحت في تدريب نموذج ذكاء اصطناعي ضخم، زي اللي بتعمله OpenAI وMeta، لكن استخدموا موارد حوسبة (GPU) أقل بحوالي 11 مرة من الموارد المطلوبة لتدريب النوع ده من النماذج،
النموذج اسمه DeepSeek-V3 وعدد البارامترز فيه 671 مليار، واتدرب على 2048 كارت شاشة Nvidia H800 بس خلال شهرين (حوالي 2.8 مليون ساعة GPU)، وده مقارنة بنموذج شركة بميتا مثلا اللي استخدمت 16,384 كارت H100 لمدة 54 يوم عشان تدرب نموذج Llama 3 (30.8 مليون ساعة GPU).
الشركة فتحت كود النموذج والـweights للناس عشان يجربوا ويقيموا أداؤه بنفسهم، يعني أصبح نموذج مفتوح المصدر بالكامل، وفي اختبارات كتيرة ينافس أو يتفوق على نماذج عالمية زي GPT-4x وClaude-3.5-Sonnet وLLlama-3.1 أو يقارب منهم.
المهم في الموضوع ده إن الشركة "الصينية" دي قدرت توصل لمستوى كفاءة قريب جدا من نماذج الشركات الأمريكية زي OpenAI & Meta في ظل كل العقوبات وقوانين حظر تصدير التقنيات المتطورة وحتى الهاردوير للشركات الصينية.
النموذج اسمه DeepSeek-V3 وعدد البارامترز فيه 671 مليار، واتدرب على 2048 كارت شاشة Nvidia H800 بس خلال شهرين (حوالي 2.8 مليون ساعة GPU)، وده مقارنة بنموذج شركة بميتا مثلا اللي استخدمت 16,384 كارت H100 لمدة 54 يوم عشان تدرب نموذج Llama 3 (30.8 مليون ساعة GPU).
الشركة فتحت كود النموذج والـweights للناس عشان يجربوا ويقيموا أداؤه بنفسهم، يعني أصبح نموذج مفتوح المصدر بالكامل، وفي اختبارات كتيرة ينافس أو يتفوق على نماذج عالمية زي GPT-4x وClaude-3.5-Sonnet وLLlama-3.1 أو يقارب منهم.
المهم في الموضوع ده إن الشركة "الصينية" دي قدرت توصل لمستوى كفاءة قريب جدا من نماذج الشركات الأمريكية زي OpenAI & Meta في ظل كل العقوبات وقوانين حظر تصدير التقنيات المتطورة وحتى الهاردوير للشركات الصينية.