🟢 خبری خوش برای جامعه هوش مصنوعی فارسی: انتشار مجموعه دادگان عظیم ParsBench!
تیم ParsBench مجموعهای بیش از ۱۰۰هزار رکورد داده سوال و جواب فارسی در بیش از ۵۰ موضوع مختلف برای Fine-tuning و Evaluation منتشر کرده است.
این مجموعه شامل دیتاستهای زیر میباشد:
PersianSyntheticQA
مجموعهای از ۱۰۰هزار سوال و جواب فارسی با محوریت ایران و جهان در ۵۰ موضوع مختلف. هر موضوع شامل ۲هزار سوال و جواب مجزا میباشد که توسط gpt-4o تولید شده است.
PersianQA (LMSYS)
دیتاست شامل ۵ هزار رکورد ترجمه شده از دیتاست سوال و جواب lmsys است و شامل موضوعات مختلفی از تعاملات کاربران با مدلهای زبانی میباشد.
Persian-NoRobots
نسخه ترجمه شده از دیتاست اصلی NoRobots که شامل ۱۰هزار سوال و جواب در ۱۰ دستهبندی مختلف مانند خلاصهسازی، تولید متن، گفتگو، کدنویسی و... میباشد.
نسخه اصلی این دیتاست کاملاً توسط انسان و بدون دخالت هیچ LLMای ساخته شدهاست.
PersianSyntheticEmotions
شامل تقریباً ۹هزار رکورد از متون ایجاد شده توسط gpt-4o در موضوعات مختلف است که همگی شامل برچسب احساسات در ۶ کلاس احساسات Ekman میباشند.
Persian-MuSR
ترجمه فارسی MuSR است که شامل حدوداً هزار سوال معمایی برای سنجش توانایی تحلیل LLM با روش CoT میباشد.
همچنین شما میتوانید در این ریپازیتوری به کدهای استفاده شده برای ایجاد این دیتاستها دسترسی پیدا کنید.
#دیتاست #متن_باز
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
تیم ParsBench مجموعهای بیش از ۱۰۰هزار رکورد داده سوال و جواب فارسی در بیش از ۵۰ موضوع مختلف برای Fine-tuning و Evaluation منتشر کرده است.
این مجموعه شامل دیتاستهای زیر میباشد:
PersianSyntheticQA
مجموعهای از ۱۰۰هزار سوال و جواب فارسی با محوریت ایران و جهان در ۵۰ موضوع مختلف. هر موضوع شامل ۲هزار سوال و جواب مجزا میباشد که توسط gpt-4o تولید شده است.
PersianQA (LMSYS)
دیتاست شامل ۵ هزار رکورد ترجمه شده از دیتاست سوال و جواب lmsys است و شامل موضوعات مختلفی از تعاملات کاربران با مدلهای زبانی میباشد.
Persian-NoRobots
نسخه ترجمه شده از دیتاست اصلی NoRobots که شامل ۱۰هزار سوال و جواب در ۱۰ دستهبندی مختلف مانند خلاصهسازی، تولید متن، گفتگو، کدنویسی و... میباشد.
نسخه اصلی این دیتاست کاملاً توسط انسان و بدون دخالت هیچ LLMای ساخته شدهاست.
PersianSyntheticEmotions
شامل تقریباً ۹هزار رکورد از متون ایجاد شده توسط gpt-4o در موضوعات مختلف است که همگی شامل برچسب احساسات در ۶ کلاس احساسات Ekman میباشند.
Persian-MuSR
ترجمه فارسی MuSR است که شامل حدوداً هزار سوال معمایی برای سنجش توانایی تحلیل LLM با روش CoT میباشد.
همچنین شما میتوانید در این ریپازیتوری به کدهای استفاده شده برای ایجاد این دیتاستها دسترسی پیدا کنید.
#دیتاست #متن_باز
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person