اجرای مدل های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سختافزارهای معمولی تقریبا غیر ممکنه.
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
✅ @SEYED_BAX | @cvision
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
✅ @SEYED_BAX | @cvision