✅ پنج درسی که تو 5 سال اولم به عنوان یه دانشمند داده یاد گرفتم:
🔢 اول داده، بعد مدل!
✏️ قبل از اینکه توی انتخاب مدل و مدل سازی غرق بشی، اول ببین اصلاً دادههای که داری درست و تمیزه یا نه. ۷۰٪ کار یه پروژه ML تمیز کردن دادههاست، نه مدل زدن! پس اول دادههاتو بررسی و تمیز کن، بعد برو سراغ مدل!
➖ ➖ ➖ ➖ ➖ ➖
🔢 انتخاب متریک درست، شاهکلید موفقیته!
✏️ هر مدلی که بزنی، بدون یه متریک درست، هیچ ارزشی نداره. یه مدل ممکنه روی کاغذ عالی به نظر بیاد، ولی اگه متریک درستی برای سنجیدنش نداشته باشی، نمیفهمی واقعاً خوبه یا نه. دقت (accuracy) همیشه بهترین گزینه نیست. گاهی F1-score یا AUC-ROC مهمتره. پس متریک رو هوشمندانه انتخاب کن.
➖ ➖ ➖ ➖ ➖ ➖
🔢 همیشه کارِ تو با سادهترین روش شروع کن!
✏️ قبل از این که مدلهای سنگین و پیچیده رو امتحان کنی، یه بیسلاین (Baseline) ساده بزن. لازم نیست از همون اول مدلهای پیچیدهای مثل شبکههای عصبی رو بیاری وسط. خیلی وقتا یه مدل ساده مثل رگرسیون خطی یا حتی یه رولبیس میتونه کلی از کارت رو راه بندازه.
➖ ➖ ➖ ➖ ➖ ➖
🔢 تحلیل اکتشافی دادهها (EDA) واجبه!
✏️ بله، واجبه! چون با EDA میفهمی توی دیتاستت چی میگذره. پس قبل از مدلسازی، یه نگاه دقیق به دادههات بنداز. ببین توزیعشون چطوریه، مقدارهای گمشده (Missing Values) داری یا نه، دادههای پرت (Outliers) چقدرن. این کار بهت کمک میکنه بفهمی چه ویژگیهایی مهمن و از اول مسیر رو درست بری.
➖ ➖ ➖ ➖ ➖ ➖
🔢 کدت رو طوری بنویس که چند وقت بعد خودت هم بفهمیش!
✏️ قابلیت تکرارپذیری، یعنی هر کسی بتونه کدت رو اجرا کنه و همون نتیجه رو بگیره. بارها پیش میاد که یه ماه بعد برمیگردی سراغ کدی که نوشتی و هیچی ازش نمیفهمی! همیشه مرتب کدنویسی کن و از notebooks بینظم دوری کن، از از کامنتگذاری، نسخهبندی (Git)، logging و documentation استفاده کن.
✍️ اگه اینارو زودتر میدونستم، کلی از زمانم ذخیره میشد!
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
🔢 اول داده، بعد مدل!
✏️ قبل از اینکه توی انتخاب مدل و مدل سازی غرق بشی، اول ببین اصلاً دادههای که داری درست و تمیزه یا نه. ۷۰٪ کار یه پروژه ML تمیز کردن دادههاست، نه مدل زدن! پس اول دادههاتو بررسی و تمیز کن، بعد برو سراغ مدل!
➖ ➖ ➖ ➖ ➖ ➖
🔢 انتخاب متریک درست، شاهکلید موفقیته!
✏️ هر مدلی که بزنی، بدون یه متریک درست، هیچ ارزشی نداره. یه مدل ممکنه روی کاغذ عالی به نظر بیاد، ولی اگه متریک درستی برای سنجیدنش نداشته باشی، نمیفهمی واقعاً خوبه یا نه. دقت (accuracy) همیشه بهترین گزینه نیست. گاهی F1-score یا AUC-ROC مهمتره. پس متریک رو هوشمندانه انتخاب کن.
➖ ➖ ➖ ➖ ➖ ➖
🔢 همیشه کارِ تو با سادهترین روش شروع کن!
✏️ قبل از این که مدلهای سنگین و پیچیده رو امتحان کنی، یه بیسلاین (Baseline) ساده بزن. لازم نیست از همون اول مدلهای پیچیدهای مثل شبکههای عصبی رو بیاری وسط. خیلی وقتا یه مدل ساده مثل رگرسیون خطی یا حتی یه رولبیس میتونه کلی از کارت رو راه بندازه.
➖ ➖ ➖ ➖ ➖ ➖
🔢 تحلیل اکتشافی دادهها (EDA) واجبه!
✏️ بله، واجبه! چون با EDA میفهمی توی دیتاستت چی میگذره. پس قبل از مدلسازی، یه نگاه دقیق به دادههات بنداز. ببین توزیعشون چطوریه، مقدارهای گمشده (Missing Values) داری یا نه، دادههای پرت (Outliers) چقدرن. این کار بهت کمک میکنه بفهمی چه ویژگیهایی مهمن و از اول مسیر رو درست بری.
➖ ➖ ➖ ➖ ➖ ➖
🔢 کدت رو طوری بنویس که چند وقت بعد خودت هم بفهمیش!
✏️ قابلیت تکرارپذیری، یعنی هر کسی بتونه کدت رو اجرا کنه و همون نتیجه رو بگیره. بارها پیش میاد که یه ماه بعد برمیگردی سراغ کدی که نوشتی و هیچی ازش نمیفهمی! همیشه مرتب کدنویسی کن و از notebooks بینظم دوری کن، از از کامنتگذاری، نسخهبندی (Git)، logging و documentation استفاده کن.
✍️ اگه اینارو زودتر میدونستم، کلی از زمانم ذخیره میشد!
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa