💡راستش رو بخواید، یه چیزی دیدم که یه کم ذهنم رو مشغول کرده. انگار توی بنچمارک جدیدی به اسم "آیدان" هوش مصنوعی DeepSeek R1 اونقدرها که انتظار میرفت رتبه نیاورده. البته خب، میدونید که با عجله نمیشه نظر قطعی داد. باید صبر کنیم، ببینیم کارشناسها چی میگن، چه تحلیلهایی ارائه میدن. شاید اصلا این بنچمارک یه جور دیگه داره هوش مصنوعیها رو میسنجه و ما هنوز کامل درکش نکردیم.
حالا این "بنچمارک آیدان" که اسمش رو شنیدیم چیه اصلا؟ داستان از این قراره که یه آقایی هست به اسم آیدان مکلافلین. ایشون یه ابزاری درست کرده برای اینکه بفهمه هوش مصنوعیهای بزرگ، این مدلهای زبانی که اینقدر سر و صدا کردن، واقعاً چقدر "باهوش" هستن. البته نه هوش به اون معنی پیچیدهش، بلکه بیشتر منظورم اینه که چقدر میتونن توی موقعیتهای واقعی، یعنی جاهایی که جواب از پیش مشخص نیست، خوب عمل کنن.
جالب اینجاست که انگار این بنچمارک آیدان، خیلی شبیه اون بنچمارکهای دیگه مثل LMSYS Arena نیست. میگن خیلی هم با نمرههای اونها جور در نمیاد. یه جورایی انگار زاویه دیدش فرق داره. یه نکته دیگه هم که خیلی به نظرم مهمه اینه که انگار این بنچمارک "سقف" نداره، یعنی هر چقدر یه هوش مصنوعی بهتر باشه، میتونه نمرهش بالاتر بره. این خیلی خوبه، چون نشون میده که فضا برای پیشرفت هنوز خیلی زیاده. و البته، مهمتر از همه، میگن که این بنچمارک آیدان خیلی به کاربردهای واقعی هوش مصنوعی توی دنیای واقعی نزدیکه. یعنی داره چیزهایی رو میسنجه که واقعاً توی زندگی روزمره و کارهای عملی به درد میخورن.
روش کارش هم جالبه. به هوش مصنوعی دستور میده که جوابهای جدید و خلاقانه تولید کنه، نه اینکه فقط حرفهای قبلی رو تکرار کنه. این فرآیند همینطور ادامه پیدا میکنه، یعنی هوش مصنوعی باید هی جواب جدید بده، تا وقتی که دیگه نتونه جواب جدیدی بده یا شروع کنه به تکرار کردن جوابهای قبلی. اینجوری انگار داره خلاقیت و نوآوری هوش مصنوعی رو به چالش میکشه.
بعد هم میگن خود آقای مکلافلین یه ابزاری درست کرده که میشه نتایج این بنچمارک رو باهاش دید و بررسی کرد. این خیلی خوبه، چون باعث میشه همه بتونن ببینن هر هوش مصنوعی توی این چالش جدید چطور عمل کرده.
به نظر من که خیلی جالبه. اینکه یه بنچمارک جدید اومده که یه جور دیگه داره به هوش مصنوعیها نگاه میکنه، خیلی خوبه. باعث میشه ما هم دیدمون وسیعتر بشه و فقط به یه سری معیارهای محدود اکتفا نکنیم. باز هم میگم، برای اینکه بفهمیم واقعاً قضیه چیه و این بنچمارک آیدان چه حرفی برای گفتن داره، باید صبر کنیم و ببینیم متخصصها چی میگن. ولی خب، از همین الانش هم میشه فهمید که این یه قدم رو به جلو برای ارزیابی واقعیتر هوش مصنوعیهاست.
#هوش_مصنوعی #دیپسیک #Deepseek
✈️@mohammad_zammani
حالا این "بنچمارک آیدان" که اسمش رو شنیدیم چیه اصلا؟ داستان از این قراره که یه آقایی هست به اسم آیدان مکلافلین. ایشون یه ابزاری درست کرده برای اینکه بفهمه هوش مصنوعیهای بزرگ، این مدلهای زبانی که اینقدر سر و صدا کردن، واقعاً چقدر "باهوش" هستن. البته نه هوش به اون معنی پیچیدهش، بلکه بیشتر منظورم اینه که چقدر میتونن توی موقعیتهای واقعی، یعنی جاهایی که جواب از پیش مشخص نیست، خوب عمل کنن.
جالب اینجاست که انگار این بنچمارک آیدان، خیلی شبیه اون بنچمارکهای دیگه مثل LMSYS Arena نیست. میگن خیلی هم با نمرههای اونها جور در نمیاد. یه جورایی انگار زاویه دیدش فرق داره. یه نکته دیگه هم که خیلی به نظرم مهمه اینه که انگار این بنچمارک "سقف" نداره، یعنی هر چقدر یه هوش مصنوعی بهتر باشه، میتونه نمرهش بالاتر بره. این خیلی خوبه، چون نشون میده که فضا برای پیشرفت هنوز خیلی زیاده. و البته، مهمتر از همه، میگن که این بنچمارک آیدان خیلی به کاربردهای واقعی هوش مصنوعی توی دنیای واقعی نزدیکه. یعنی داره چیزهایی رو میسنجه که واقعاً توی زندگی روزمره و کارهای عملی به درد میخورن.
روش کارش هم جالبه. به هوش مصنوعی دستور میده که جوابهای جدید و خلاقانه تولید کنه، نه اینکه فقط حرفهای قبلی رو تکرار کنه. این فرآیند همینطور ادامه پیدا میکنه، یعنی هوش مصنوعی باید هی جواب جدید بده، تا وقتی که دیگه نتونه جواب جدیدی بده یا شروع کنه به تکرار کردن جوابهای قبلی. اینجوری انگار داره خلاقیت و نوآوری هوش مصنوعی رو به چالش میکشه.
بعد هم میگن خود آقای مکلافلین یه ابزاری درست کرده که میشه نتایج این بنچمارک رو باهاش دید و بررسی کرد. این خیلی خوبه، چون باعث میشه همه بتونن ببینن هر هوش مصنوعی توی این چالش جدید چطور عمل کرده.
به نظر من که خیلی جالبه. اینکه یه بنچمارک جدید اومده که یه جور دیگه داره به هوش مصنوعیها نگاه میکنه، خیلی خوبه. باعث میشه ما هم دیدمون وسیعتر بشه و فقط به یه سری معیارهای محدود اکتفا نکنیم. باز هم میگم، برای اینکه بفهمیم واقعاً قضیه چیه و این بنچمارک آیدان چه حرفی برای گفتن داره، باید صبر کنیم و ببینیم متخصصها چی میگن. ولی خب، از همین الانش هم میشه فهمید که این یه قدم رو به جلو برای ارزیابی واقعیتر هوش مصنوعیهاست.
#هوش_مصنوعی #دیپسیک #Deepseek
✈️@mohammad_zammani