چند روز پیش یه خبر حسابی تو دنیای تکنولوژی پیچید: شرکت xAI، همون شرکت ایلان ماسک، با کلی آب و تاب گفت که مدل زبانی جدیدشون، Grok 3، تو یه آزمون خفن به اسم AIME 2025، مدل رقیب، o3-mini-high از OpenAI رو قورت داده! این خبر، مخصوصا برای اونایی که تو کار هوش مصنوعی هستن، خیلی جذاب بود، چون آزمون AIME 2025 یه جورایی خط کشِ توانایی ریاضی هوش مصنوعیهاست.
ولی خداییش، راسته که Grok 3 اینقدر شاخِ که میگن؟
یه سری از کارشناسای OpenAI خیلی زود یه چیزی رو تو گزارش xAI پیدا کردن. انگار تو محاسبات مربوط به مدل o3-mini-high، یه معیار خیلی مهم به اسم «cons@64» رو کلا جا انداختن!
اصلا این «cons@64» چیه که اینقدر مهمه؟
خیلی سادهاش اینه که معیار «consensus@64» یا همون «اجماع در 64 تلاش»، یه ترفنده که به هوش مصنوعیها اجازه میده برای حل یه مسئله ریاضی، تا 64 بار کلنجار برن و آخرش اون جوابی که بیشتر از همه تکرار شده رو به عنوان جواب اصلی قبول کنن. خیلی جاها، همین ترفند کارایی مدلها رو تو امتحانای ریاضی کلی میبره بالا. حالا اگه این معیار رو نادیده بگیری، مقایسهت دیگه درست از آب در نمیاد و یه جورایی گمراهکنندهست.
جالب اینجاست که وقتی دقیقتر به نتایج نگاه میکنیم، یه چیز باحالتر میبینیم: مدلهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning، حتی تو معیار @1 (یعنی فقط اولین جوابی که میدن رو حساب کنیم) هم نمرهشون از o3-mini-high کمتره! از همه خندهدارتر اینکه، Grok 3 Reasoning Beta حتی از o1-medium که یه مدل قدیمیتر از OpenAI هست هم ضعیفتر عمل کرده!
با این همه، xAI هنوزم میگه Grok 3 هوشمندترین هوش مصنوعی دنیاست!
ته داستان چیه؟
به نظر میرسه Grok 3 یه قدمایی رو به جلو برداشته، اما اینکه بگیم از همه بهتره، هنوز زوده و باید با دقت بیشتری بررسیش کنیم.
این ماجرا یه بار دیگه یادمون میندازه که تو دنیای شلوغ هوش مصنوعی، نباید زودباور باشیم و هر چیزی رو که شرکتای بزرگ میگن چشم بسته قبول کنیم. همیشه باید دنبال فهمیدن اصل ماجرا باشیم و سطحی نگذریم.
منبع
#هوش_مصنوعی #تکنولوژی #Grok3 #OpenAI #xAI
✈️@mohammad_zammani
ولی خداییش، راسته که Grok 3 اینقدر شاخِ که میگن؟
یه سری از کارشناسای OpenAI خیلی زود یه چیزی رو تو گزارش xAI پیدا کردن. انگار تو محاسبات مربوط به مدل o3-mini-high، یه معیار خیلی مهم به اسم «cons@64» رو کلا جا انداختن!
اصلا این «cons@64» چیه که اینقدر مهمه؟
خیلی سادهاش اینه که معیار «consensus@64» یا همون «اجماع در 64 تلاش»، یه ترفنده که به هوش مصنوعیها اجازه میده برای حل یه مسئله ریاضی، تا 64 بار کلنجار برن و آخرش اون جوابی که بیشتر از همه تکرار شده رو به عنوان جواب اصلی قبول کنن. خیلی جاها، همین ترفند کارایی مدلها رو تو امتحانای ریاضی کلی میبره بالا. حالا اگه این معیار رو نادیده بگیری، مقایسهت دیگه درست از آب در نمیاد و یه جورایی گمراهکنندهست.
جالب اینجاست که وقتی دقیقتر به نتایج نگاه میکنیم، یه چیز باحالتر میبینیم: مدلهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning، حتی تو معیار @1 (یعنی فقط اولین جوابی که میدن رو حساب کنیم) هم نمرهشون از o3-mini-high کمتره! از همه خندهدارتر اینکه، Grok 3 Reasoning Beta حتی از o1-medium که یه مدل قدیمیتر از OpenAI هست هم ضعیفتر عمل کرده!
با این همه، xAI هنوزم میگه Grok 3 هوشمندترین هوش مصنوعی دنیاست!
ته داستان چیه؟
به نظر میرسه Grok 3 یه قدمایی رو به جلو برداشته، اما اینکه بگیم از همه بهتره، هنوز زوده و باید با دقت بیشتری بررسیش کنیم.
این ماجرا یه بار دیگه یادمون میندازه که تو دنیای شلوغ هوش مصنوعی، نباید زودباور باشیم و هر چیزی رو که شرکتای بزرگ میگن چشم بسته قبول کنیم. همیشه باید دنبال فهمیدن اصل ماجرا باشیم و سطحی نگذریم.
منبع
#هوش_مصنوعی #تکنولوژی #Grok3 #OpenAI #xAI
✈️@mohammad_zammani