الان مدل R1 از Deepseek معرفی شد که اولین مدل استدلالی رایگان و اوپنسورس هست که میشه این حجم بهش پیام داد.
ادعا میکنن توی نتایجی از o1-mini بهتر بوده و میگن R1 بهترین مدل دنیا برای کدنویسی هست (تو رقابت با مدلهای غیر استدلالی).
جواب آخر رو اول میذارم یعنی برای استفاده از R1 کافی هست DeepThink رو روشن کنید.
اول R1-Zero رو بدون اینکه تو مرحله اول از fine-tuning نظارتشده (SFT) استفاده کنن توسعه دادن، یعنی مدل تو این مرحله با استفاده از یه مجموعه دادهی برچسبدار (یعنی دادههایی که جواب درستشون از قبل مشخصه) آموزش ندیده.
نتیجه مدل تواناییهایی مثل خود-تأییدی، بازتاب و تولید زنجیرههای فکری طولانی رو داره.
ولی یه سری مشکلات هم داشت مثل تکرارهای بیپایان، خوانایی ضعیف و مخلوطکردن زبانها که برای حل کردنش میان R1 رو معرفی میکنن.
خب R1 ساختارش مثل OpenAI-o1 هست و قبل از یادگیری تقویتی (RL)، از دادههای cold-start استفاده میکنه. اومدن چندین مدل هم بر پایه R1 ساختن که همگی اوپنسورس هستن.
حریمخصوصی: شرکت Deepseek تمام دادههای کاربران رو ذخیره میکنه، چه زمانی که از API اون استفاده کنید و چه زمانی که از داخل سایت باهاش چت کنید، به همین خاطر بهتر هست برای کارهایی که حریمخصوصی براتون اهمیت داره از اون استفاده نکنید.
https://chat.deepseek.com
github
@geekaerts
ادعا میکنن توی نتایجی از o1-mini بهتر بوده و میگن R1 بهترین مدل دنیا برای کدنویسی هست (تو رقابت با مدلهای غیر استدلالی).
جواب آخر رو اول میذارم یعنی برای استفاده از R1 کافی هست DeepThink رو روشن کنید.
اول R1-Zero رو بدون اینکه تو مرحله اول از fine-tuning نظارتشده (SFT) استفاده کنن توسعه دادن، یعنی مدل تو این مرحله با استفاده از یه مجموعه دادهی برچسبدار (یعنی دادههایی که جواب درستشون از قبل مشخصه) آموزش ندیده.
نتیجه مدل تواناییهایی مثل خود-تأییدی، بازتاب و تولید زنجیرههای فکری طولانی رو داره.
ولی یه سری مشکلات هم داشت مثل تکرارهای بیپایان، خوانایی ضعیف و مخلوطکردن زبانها که برای حل کردنش میان R1 رو معرفی میکنن.
خب R1 ساختارش مثل OpenAI-o1 هست و قبل از یادگیری تقویتی (RL)، از دادههای cold-start استفاده میکنه. اومدن چندین مدل هم بر پایه R1 ساختن که همگی اوپنسورس هستن.
حریمخصوصی: شرکت Deepseek تمام دادههای کاربران رو ذخیره میکنه، چه زمانی که از API اون استفاده کنید و چه زمانی که از داخل سایت باهاش چت کنید، به همین خاطر بهتر هست برای کارهایی که حریمخصوصی براتون اهمیت داره از اون استفاده نکنید.
https://chat.deepseek.com
github
@geekaerts