Data Science | علم داده


Гео и язык канала: Иран, Фарси
Категория: Технологии


📊 دانشمند داده شوید!
👔 جهت درج تبلیغات، به آیدی زیر پیام دهید:👇🏼‌
🆔 @DataScienceir_Adv

Связанные каналы  |  Похожие каналы

Гео и язык канала
Иран, Фарси
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: موسسه پژوهش‌های پیشرفته تهران (تیاس)
✳ The Second Symposium on Frontiers in Computer and Data Sciences


📆 February 26 - 27

❇ Khatam University, Building No.1

‼️Registration "Required" Deadline: Friday February 21


✅ Registration link:
https://teias.institute/frontiers-2025/



@teiasevents


Репост из: Quera
👽 هکاتون «هوش‌مصنوعی دانشگاه تهران»

✅ هکاتون «UT AI» هشتمین هکاتون کوئراست که با همکاری دانشگاه تهران و همراهی شرکت‌های فعال در حوزه بیمه، با موضوع #پردازش_تصویر برگزار می‌شه.

⚡️رقابت انتخابی
آنلاین | ۹ اسفند: چالش‌های پردازش تصویر (طبق سرفصل‌های دوره آموزشی هکاتون)

⚡️رقابت فینال
حضوری در دانشگاه تهران | ۲۸ فروردین: مسائل واقعی بینایی ماشین در حوزه بیمه

🔘 ۶۰ میلیون تومان جایزه نقدی
🔘 اهدای گواهینامه
🔘 ۶ ساعت فیلم آموزشی + ۳ ساعت کارگاه آنلاین
🔘 امکان پرداخت قسطی
🔘 فرصت #استخدام

🔴 بلافاصله بعد از ثبت‌نام، فیلم‌ها و محتوای آموزشی #هکاتون در اختیارتون قرار می‌گیره.

✅ مهلت ثبت‌نام تا ۸ اسفند

🌐 ثبت‌نام و اطلاعات بیشتر:
🔗 https://quera.org/r/zl7r4

➖➖➖➖
#Quera #Queracontest


🎓 پروژه‌های علوم داده خودت رو بساز!
💸 5 ایده جذاب برای ایجاد پروژه‌های علم داده

👩🏻‍💻 دیگه وقتشه پروژه‌های آموزشی و تکراری رو بذارین کنار! چرا خودت دست به کار نشی و پروژه‌های شخصی خودت رو شروع نکنی؟ اینجوری هم بیشتر یاد می‌گیری، هم به ایده‌های خودت پر و بال میدی!

✅ برای اینکه راحت‌تر شروع کنین، من 5 تا ایده جذاب برای پروژه‌های علوم داده رو به همراه دیتاست‌شون براتون آماده کردم. با این پروژه‌ها می‌تونین مهارت‌هات رو تقویت کنین و حسابی خودتون رو به چالش بکشین. پس وقتو تلف نکنین و این پروژه‌ها رو شروع کنین!


1️⃣ پروژه عملکرد کشورها در المپیک تابستانی

ایده پروژه: ساخت داشبوردی برای بررسی و مقایسه عملکرد کشورها در المپیک و پیدا کردن کشورهایی که در حال پیشرفت هستن.

مهارت‌ها: تحلیل سری‌های زمانی، مصورسازی داده، SQL ،Python

📎 دیتاست: Summer Olympics Dataset


2️⃣ پروژه تحلیل تغذیه فست فود

ایده پروژه: گروه‌بندی آیتم‌های منوی فست فود بر اساس ارزش‌های غذایی و کشف الگوهای جالب در منوها.

مهارت‌ها: تحلیل اکتشافی داده‌ها، یادگیری ماشین بدون نظارت، Python.

📎 دیتاست: Fast Food Nutrition Dataset


3️⃣ پروژه نظرات کاربران Airbnb

☑️ ایده پروژه: ساخت سیستمی که به کاربران پیشنهادهای بهتری برای اقامت بر اساس نظرات و ویژگی‌های مکان‌ها بدهد.

مهارت‌ها: یادگیری ماشین، مهندسی ویژگی‌ها، SQL، Python.

📎 دیتاست: Airbnb Listings & Reviews


4️⃣ پروژه فیلم‌ها

ایده پروژه: ایجاد سیستمی که فیلم‌های جدید را بر اساس امتیازات و سلیقه کاربران پیشنهاد دهد.

مهارت‌ها: یادگیری ماشین بدون نظارت، مهندسی ویژگی، Python ،SQL.

📎 دیتاست: Movies Dataset


5️⃣ پروژه سلامت روان

ایده پروژه: تحلیل داده‌های جهانی درباره اختلالات روانی و نمایش تغییرات آن‌ها در طول زمان با گراف‌های تعاملی.

مهارت‌ها: تحلیل سری‌های زمانی، مصورسازی داده، تحلیل اکتشافی داده‌ها، .Python

📎 دیتاست: Mental Health Dataset


🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


🔴 فردا آخرین فرصت ثبت‌نامه

◀️ دیتا ساینس
◀️ دیتا آنالیز

یک دوره ۶ ماهه، پشتیبانی کمک به استخدام و بدون پیش‌نیاز

الان شروع کن، مرداد یک دیتا آنالیزور حرفه‌ای باش👇👇

https://dnkr.ir/6qnvz
https://dnkr.ir/6qnvz


Репост из: مدرسه پردازش و تحلیل داده دقیقه
🔵 یادگیری ماشین با پایتون

اگر می‌خواهید از قدرت هوش مصنوعی در تحلیل داده و تحقیقات خود بهره‌مند شوید، یادگیری ماشین مهم‌ترین چیزی است که به آن نیاز دارید.

دوره جامع «یادگیری ماشین با پایتون» از مبانی یادگیری ماشین آغاز می‌شود و گام‌ به گام تا مباحث پیچیده‌تری مثل یادگیری گروهی، کاهش ابعاد داده و شبکه‌های عصبی پیش ‌می‌رود. در این دوره آموزشی تمامی مباحث با رویکردی عملیاتی آموزش داده خواهند شد و تمامی مفاهیم و روش‌های دوره با پردازش داده‌های واقعی در محیط پایتون پیاده‌سازی خواهند شد.

🎓 سعید مجیدی | متخصص یادگیری ماشین، پردازش زبان‌های طبیعی و مدل‌های زبانی بزرگ در گروه صنعتی انتخاب و شرکت پردازش و تحلیل داده دقیقه، دکترای علوم کامپیوتر با گرایش یادگیری ماشین و پردازش زبان از دانشگاه تافتس آمریکا
🎓 حمیده حسین‌زاده | متخصص ریاضیات علوم داده و پردازش داده‌های حجیم در شرکت سرچ‌وایز، دکترای علوم ریاضی از دانشگاه الزهرا، محقق پسادکتری علوم داده در دانشگاه بهشتی و دارای سابقه فعالیت تحقیقاتی در دانشگاه واترلوی کانادا

#دوره_آموزشی_آنلاین

📆 یکشنبه‌ها ۱۸:۳۰ تا ۲۱:۳۰
🗓 از ۱۴ اردیبهشت ۱۴۰۴
⏺️ ۳۰ ساعت (۱۰ هفته)
🎞 با دسترسی به ویدئوی جلسات
🏅 گواهی پایان دوره (قابل استعلام)

⏳ برای استفاده از تخفیف بیشتر زودتر ثبت‌نام کنید:

🙂 کد تخفیف 35% برای پرداخت کامل: DSMLp35
🙂 کد تخفیف 25% برای پرداخت قسطی: DSaLp25

🔴 اعتبار کدهای تخفیف تا ۷ اسفند ۱۴۰۳

🔗 لینک ثبت نام:
d-learn.ir/mlpy?utm=dsmlp


تماس:
📱 t.me/dlearnsup
📞 02188349244
📲 09103209837

@dlearn_ir


5 تا از بهترین دیتاست‌های Kaggle
💸 برای پروژه‌های علوم داده (در زمینه‌ی مالی)

👨🏻‍💻 اگه دنبال دیتاست‌هایی برای انجام پروژه‌های مالی هستین، دیتاست‌هایی که توی سایت Kaggle ارائه می‌شن، می‌تونن گزینه‌ای عالی‌ باشن.

⏪ این دیتاست‌ها معمولا تمیز و آماده‌ی استفاده هستن و برای مدل‌های یادگیری ماشین خیلی مناسبن. بعضی از این دیتاست‌ها حتی به‌صورت روزانه آپدیت می‌شن و می‌تونین از اون‌ها برای تحلیل‌های عمیق‌تر استفاده کنین.👇


1️⃣ دیتاست سهام S&P 500 (آپدیت روزانه)

📎 لینک: S&P 500 Stock


2️⃣ دیتاست وام‌ها و بدهی‌ها

📎 لینک: Loans & Liability


3️⃣ دیتاست استفاده مکرر از کارت اعتباری

📎 لینک: Credit Card Spending Habits


4️⃣ دیتاست پیش‌بینی ورشکستگی شرکت‌ها

📎 لینک: Company Bankruptcy Prediction


5️⃣ دیتاست طبقه‌بندی امتیاز اعتباری

📎 لینک: Credit score classification


🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


🔹دوره MBA علم داده دانشگاه تهران: دروازه ورود به دنیای داده‌ها!

🚀 اگر به دنبال پیشرفت در حوزه دیتاساینس و ارتقای مهارت‌های خود هستید، این دوره را از دست ندهید!

🎊 همین حالا ثبت‌نام کنید و از تخفیف ویژه بهره‌مند شوید!

چرا این دوره؟

📌 مدرک معتبر: ارائه گواهی رسمی از دانشگاه تهران با اعتبار بین‌المللی

📌 اساتید برجسته: تدریس توسط برترین اساتید دانشگاه تهران، شریف و ...

📌 روش برگزاری منعطف: به‌صورت حضوری و آنلاین

❗️ ظرفیت دوره محدود است، همین حالا اقدام کنید!❗️

🎯 آینده شغلی خود را با MBA علم داده (Data Science) دانشگاه تهران تضمین کنید!
----------------
📞 جهت کسب اطلاعات بیشتر:👇

📱 09103351042
☎ 02188004278
📌 آیدی تلگرام: @CBSut_info
----------------


🔰 مرکز نوآوری دانشگاه امام صادق علیه‌السلام برگزار می‌کند:

🔰 *رویداد نوفن۲: راه‌اندازی کسب‌وکارهای هوش مصنوعی با تمرکز بر ایده‌های علوم انسانی*


📌 *مراحل رویداد:*
ایده پردازی
طراحی مدل کسب‌وکار
طراحی سایت
پیاده‌سازی API
ارزیابی و داوری ایده‌ها
معرفی و ارائه ایده‌ها به سرمایه‌گذاران

💠 با حضور اساتید مطرح در حوزه هوش مصنوعی و مربیان راه‌اندازی کسب و کار و منتورهای تخصصی در حوزه طراحی سایت و هوش مصنوعی
💠 ویژه تیم‌های دانشجویی علاقه‌مند و فعال در حوزه هوش مصنوعی
💠 حمایت ویژه از تیم‌های برتر با اعطای تسهیلات و منتورینگ
💠 با حضور منتورهای تخصصی در حوزه هوش مصنوعی و طراحی سایت


‼️ *تخفیف ۴۰ درصدی ویژه گروه‌های ۴نفره*


📌 مهلت ثبت‌نام: *۳۰ بهمن‌ماه*


[*ثبت‌نام از درگاه ایوند*](https://evand.com/events/نوفن2-0580485)


دریافت *کد تخفیف* از طریق ارسال پیامک به آیدی @mm_zoghi در پیام‌رسان بله.


#نوفن_۲
#هوش_مصنوعی
#راه‌اندازی_کسب_و_کار

➖➖➖➖➖➖➖
🧩 *مرکز نوآوری امام صادق علیه‌السلام *


🧰 26 ابزار طلایی برای ارتقای کارایی Pandas
⬅️ بخش دوم


👨🏻‍💻 تا حالا شده فکر کنی از Pandas درست و حسابی استفاده نمی‌کنی؟ با اینکه این کتابخانه قدرتمند بین دیتا ساینتیست‌ها بسیار پرطرفداره، ولی بیشتر کاربران از توانایی‌هاش بی‌خبرن!

✅ این ابزارها می‌تونن کارهایی مثل نمایش بهتر دیتاها، آنالیز دقیق‌تر، پردازش سریع‌تر و کلی قابلیت دیگه رو به Pandas اضافه کنن. با کمک این ابزارها، انگار داری از Pandas به یه روش خیلی پیشرفته‌تر و بهتر استفاده می‌کنی.

📄 اگه شروع به استفاده ازشون کنی، قطعاً کار با Pandas برات تبدیل به یه تجربه منحصر به فرد میشه! اینا ابزارهایی هستن که کافیه فقط یک بار امتحانشون کنی تا متوجه بشی چقدر می‌تونن کارتو آسون‌تر و حرفه‌ای‌تر کنن.👌


1️⃣ ابزار Pandas Alive

⏪ با این ابزار می‌تونی از دیتافریم‌هات نمودارهای متحرک و جذاب بسازی.


2️⃣ ابزار Skimpy

⏪ ابزاری برای بهبود و قوی‌تر کردن متد describe().


3️⃣ ابزار Pandas-log

⏪ با این ابزار می‌تونی مراحل پردازش دیتا رو به ترتیب ببینی و راحت‌تر دیباگ کنی.


4️⃣ ابزار tsflex

⏪ این ابزار برای پردازش سری‌های زمانی و استخراج ویژگی‌هاشون طراحی شده.


5️⃣ ابزار pandas-profiling

⏪ با یه خط کد می‌تونی گزارش کامل و جامع EDA از دیتات بگیری.


6️⃣ ابزار Mars

⏪ یه فریمورک بر پایه تنسور هست که برای مقیاس‌گذاری numpy، pandas و scikit-learn استفاده می‌شه.


7️⃣ ابزار nptyping

⏪ این ابزار بهت کمک می‌کنه که Type Hintها رو برای دیتافریم‌ها به کار ببری.


8️⃣ ابزار popmon

⏪ با این ابزار می‌تونی پروفایل دیتا رو بررسی کنی و از پایداریش مطمئن بشی.


9️⃣ ابزار Gspread-pandas

⏪ با این ابزار می‌تونی از طریق دیتافریم‌ها با گوگل‌شیت کار کنی.


1️⃣ ابزار pdpipe

⏪ بهت کمک می‌کنه که پایپ‌لاین‌های pandas رو راحت‌تر و سریع‌تر بسازی.


1️⃣ ابزار PrettyPandas

⏪ با این ابزار می‌تونی خروجی‌های دیتافریم رو شیک‌تر و زیباتر ببینی.


1️⃣ ابزار Dora

⏪ یه API برای تمیز کردن دیتا، پردازش، انتخاب ویژگی و نمایش هست.


1️⃣ ابزار Pandapy

⏪ این ابزار سرعت numpy رو با ظرافت و انعطاف‌پذیری pandas ترکیب می‌کنه.

📣 دسترسی به بخش اول


🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


@DataScience_ir - NLP in Data science.pdf
1.0Мб
📄 جزوه «کاربرد NLP در علم داده»


👨🏻‍💻 وقتی برای اولین بار با NLP کار کردم، یکی از چالش‌های بزرگم پردازش داده‌های نامنظم متنی بود. اما کم‌کم یاد گرفتم که با یه سری تکنیک، این داده‌ها رو تمیز و آماده تحلیل کنم. تصمیم گرفتم این تکنیک‌ها رو بنویسم و نتیجه‌شم شد این جزوه.


✔️ مهم‌ترین تکنیک‌های NLP که توی پروژه‌هام استفاده کردم:


🔢 توکن‌سازی: اولین قدم، شکستن متن به واحدهای کوچیک‌تر مثل کلمه یا جمله است تا بتونم راحت‌تر روش پردازش انجام بدم.

🔢 ریشه‌یابی و لماتیزه کردن: وقتی داشتم روی یک مدل تحلیل احساسات کار می‌کردم، فهمیدم که "دویدن"، "دویدم" و "دوه" همشون یه معنی دارن! این تکنیک کمک کرد کلمات رو به شکل پایه‌شون برگردونم.

🔢 حذف کلمات زائد: کلماتی مثل "و"، "به"، "از" که ارزش خاصی توی تحلیل ندارن، حذف می‌کنم تا مدل فقط روی اطلاعات مهم تمرکز کنه.

🔢 برچسب‌گذاری اجزای کلام: یه بار برای تحلیل متن نظرات کاربران، لازم شد بدونم که هر کلمه اسم، فعل یا صفت هست تا بفهمم چه بخش‌هایی از جمله بار معنایی قوی‌تری دارن.

🔢 شناسایی موجودیت‌های نامدار: وقتی داشتم گزارش‌های خبری رو پردازش می‌کردم، این تکنیک به من کمک کرد اسم افراد، مکان‌ها و تاریخ‌های مهم رو از متن بیرون بکشم.

🔢 ابر کلمات: خیلی وقت‌ها برای درک سریع داده‌های متنی، ابر کلمات درست می‌کنم تا ببینم کدوم کلمات بیشتر تکرار شدن و احتمالاً مهم‌ترن.



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


Видео недоступно для предпросмотра
Смотреть в Telegram
📊 یه گنجینه‌ کامل برای مصورسازی داده‌ها!

👩🏻‍💻 من همیشه دنبال ایده‌های جدید برای ساخت نمودارهای خلاقانه برای پروژه‌هام بودم، اما پیدا کردن نمونه‌های جدید همیشه برام یه چالش بود. تا اینکه با dataviz-inspiration.com آشنا شدم!


✔️ سایت Dataviz Inspiration یه آرشیو فوق‌العاده از صدها پروژه‌ی خفن ویژوال‌سازی داده‌س که می‌تونین بر اساس نوع نمودار فیلترش کنین.

دقیقاً مثل پینترست، اما مخصوص تحلیلگرها!😎


✏️ چرا انقدر کاربردیه؟ وقتی ایده نداری، سریع یه عالمه نمونه جذاب پیدا می‌کنی. پروژه‌ها به دسته‌بندی‌های مختلف تقسیم شدن و لازم نیست ساعت‌ها دنبال نمونه‌ی مناسب بگردی. مهم‌تر از همه اینکه مرتب آپدیت میشه و پروژه‌های جدیدتر بهش اضافه میشه! 🤩

🔗 Dataviz Inspiration


🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


Видео недоступно для предпросмотра
Смотреть в Telegram
دیگه نیازی به کدنویسی نیست! داده‌های هر وب‌سایتی رو با نوشتن یک پرامپت استخراج کن!


👨🏻‍💻 تا چند وقت پیش، هربار می‌خواستم یه سری دیتا از چندتا سایت جمع کنم، طبق معمول باید از BeautifulSoup یا Scrapy استفاده می‌کردم، کلی کد می‌زدم، با ساختار HTML هر سایت ور می‌رفتم و برای هر تغییر کوچیک تو سایت، دوباره دردسر می‌کشیدم.


✏️ ولی الان با FireCrawl کارم خیلی راحت شده. فقط کافیه یه لیست از URLها رو بهش بدی و با یه خط پرامپت توضیح بدی که دقیقاً چه داده‌هایی رو ازش می‌خوای. اون خودش میره، سایت رو crawl می‌کنه، اطلاعات رو استخراج می‌کنه و برات یه دیتاست تمیز و مرتب آماده می‌کنه!

📄 مثلاً اگه بخوای از یه سایت خبری تیتر، تاریخ انتشار و نویسنده رو بگیری، فقط توی یه پرامپت (متن راهنما) می‌نویسی:

"از این صفحه تیتر خبر، نام نویسنده و تاریخ انتشارش رو استخراج کن."


▶️ و تمام! FireCrawl بدون اینکه نیاز باشه حتی یه خط کد بنویسی، دیتاهای مرتب و ساختار یافته رو بهت تحویل میده. انگار داری یه سایت رو به یه API زنده تبدیل می‌کنی! داده‌ها رو هر جوری بخوای پردازش می‌کنی و توی هر پروژه‌ای که داری استفاده می‌کنی.👇


🔹 Turn websites into LLM-ready data



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


@DataScience_ir - Data Storytelling.pdf
1.9Мб
💡 جزوه‌ای که هر دیتاساینتیستی باید داشته باشه!

جزوه فارسی Data Storytelling — داستان پردازی با داده‌ها؛ از تحلیل تا تأثیرگذاری!

👨🏻‍💻 تابحال شده یه تحلیل قوی از داده‌ها انجام بدی ولی نتونی نتایجت رو درست به بقیه منتقل کنی؟

✏️ داستان‌پردازی با داده‌ها یا (Data Storytelling) همون مهارتیه که باعث می‌شه داده‌های خام رو به داستان‌های قانع‌کننده و تاثیرگذار تبدیل کنی و مدیران رو متقاعد کنی تا استراتژی‌های سازمان رو تغییر بدن!

👤 توی این جزوه یاد می‌گیری:

🔢 چطور داده‌ها رو طوری ارائه بدی که همه بفهمن و بپذیرن.

🔢 چه تکنیک‌هایی باعث می‌شه مدیران و تصمیم‌گیرندگان به تحلیل تو اعتماد کنن؟

🔢 چه نوع تصویری‌سازی‌هایی (Data Visualization) بهترین تاثیر رو دارن؟

▶️ پس اگه می‌خوای تحلیل‌هات فقط یه سری عدد نباشن و واقعاً روی تصمیم‌گیری‌ها اثر بذارن، این جزوه رو از دست نده!



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


🔎 داده‌های متنی رو به راحتی از تصاویر و اسناد استخراج کن!


👨🏻‍💻 اگه تاحالا داده‌های متنی رو از اسناد و تصاویر استخراج کرده باشین، احتمالاً با دردسر این کار خوب آشنا هستین. معمولاً مجبور میشی چندین کتابخونه رو کنار هم بچینی (مثلاً Tesseract برای OCR یا OpenCV برای پردازش تصویر) و چند ابزار دیگه رو برای مرتب‌سازی خروجی‌ها آماده کنی تا بالاخره به یه نتیجه‌ای برسی.


✏️ اما مشکل اینجاست که این کار هم وقت‌گیره، هم ممکنه خطاهای زیادی توی خروجی داشته باشی، تازه هر تغییری توی داده‌ها هم می‌تونه کل (Pipeline) رو به‌ هم بزنه!

✔️ از وقتی با Sparrow آشنا شدم، خیلی کارم راحت شده! یه API یکپارچه که همه‌یِ این کارها رو خودش انجام می‌ده، بدون اینکه نیاز باشه خودت چندین ابزار مختلف رو مدیریت کنی. یعنی چی؟


🔢 از هر مدل و بک‌اندی که بخوای می‌تونی استفاده کنی؛ (مثلاً OpenAI, Hugging Face، یا ابزارهای OCR اختصاصی).

🔢 خروجی کارت همیشه یکدست و دقیق می‌مونه؛ فارغ از اینکه از کدوم روش استخراج استفاده کنی!

🔢 توسعه و پیاده‌سازی رو فوق‌العاده ساده می‌کنه؛ چون دیگه لازم نیست برای هر سند، الگوریتم جداگانه بنویسی.

🔢 با انواع اسناد و فرمت‌ها کار می‌کنه؛ از PDF گرفته تا رسیدهای خرید، فاکتورها و حتی تصاویر و جزوات دست‌نویس!


🖥خلاصه، دیگه لازم نیست برای استخراج اطلاعات از اسناد کد نویسی کنی یا نگران ناپایداری پردازش‌هات باشی. فقط به Sparrow بگو چی می‌خوای، اون خودش کامل برات انجام می‌ده.👇


🕊 Sparrow
📄 Document
🐱 GitHub-Repos



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


Видео недоступно для предпросмотра
Смотреть в Telegram
با هر ریپوی گیت‌هاب رایگان چت کن!

👨🏻‍💻 به‌ عنوان یه تحلیلگر داده، چه بخوایم کد یه مقاله رو بررسی کنیم، چه یه پروژه مرتبط با محصولمون رو آنالیز کنیم همیشه سر و کارمون با ریپوی‌های گیت‌هاب زیاده.

✏️ تو اینجور مواقع، یه دستیار هوشمند که بتونه اطلاعات لازم رو سریع بهمون بده، خیلی می‌تونه کمک کننده باشه!

روش اول: استفاده از GithubChat! یه پروژه اِپن سورس که با AdalFlow ساخته شده.👇


💬 GithubChat
🐱 GitHub-Repos


☑️ روش دوم: فقط کافیه توی لینک (URL) گیت‌هاب، "hub" رو با "ingest" جایگزین کنی، بعدش یه نسخه متنی از کل کدبیس رو می‌گیری! اینطوری خیلی راحت هر ریپوی گیت‌هاب رو به متن تبدیل می‌کنی و ازش توی مدل‌های زبان بزرگ (LLMs) استفاده می‌کنی.

📹 نحوه پیاده سازی هر دو روش هم داخل ویدیوی بالا هست.



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


@DataScience_ir - Starting a Career in Data Science.pdf
962.0Кб
🥇 ترجمه فارسی و رایگان
کتاب «شروع حرفه‌ای در علم داده»


👨🏻‍💻 از حدود پنج سال پیش کار با اکسل و داشبورسازی حرفه‌ای رو شروع کردم و اتفاقات به گونه‌ای پیش رفت که عجیب به دنیای علم داده علاقه مند شدم و تصمیم گرفتم برای خودم و تمام کسانی که به تازگی وارد حوزه علم داده شدن کتاب «شروع حرفه‌ای مسیر علم داده» رو از پلتفرم 365datascience به فارسی ترجمه کنم و و در اختیار علاقه مندان این حوزه قرار بدم:👇


📗 نسخه فارسی: PDF
📙 نسخه انگلیسی: PDF



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


🔰 چطور در سال 2025 دانشمند داده بشیم؟


👨🏻‍💻 اگه می‌خواین تو دیتا ساینس حرفه‌ای بشین، این مسیر رو دنبال کنین! من یه نقشه راه کامل با بهترین منابع رایگان آماده کردم که می‌تونین مهارت‌های ضروری این حوزه رو یاد بگیریم.


🔢 گام اول: ریاضیات و آمارت رو قوی کن!

✏️ پایه و اساس یادگیری علم داده، ریاضیات، جبر خطی و آمار و احتمالاته. مباحثی که باید روشون مسلط بشین:

جبر خطی: ماتریس‌ها، بردارها، مقادیر ویژه.

🔗 دوره: MIT 18.06 Linear Algebra


حساب دیفرانسیل و انتگرال: مشتق، انتگرال، بهینه‌سازی.

🔗 دوره: MIT Single Variable Calculus


آمار و احتمال: قضیه بیز، آزمون فرضیه.

🔗 دوره: Statistics 110

➖ ➖ ➖ ➖ ➖

🔢 گام دوم: برنامه‌نویسی یاد بگیر

✏️ زبان پایتون رو یاد بگیرین و باهاش حسابی کدنویسی کنین. مهم‌ترین مباحثی که باید روش مسلط بشین:

پایتون: کتابخونه‌های Pandas, NumPy, Matplotlib

🔗 دوره: FreeCodeCamp Python Course

زبان SQL: دستورات Join، توابع Window، بهینه‌سازی کوئری‌ها.

🔗 دوره: Stanford SQL Course

ساختمان داده و الگوریتم‌ها: آرایه‌ها، لیست‌های پیوندی، درخت‌ها.

🔗 دوره: MIT Introduction to Algorithms

➖ ➖ ➖ ➖ ➖

🔢 گام سوم: یادگیری تمیز کردن و مصورسازی داده‌ها

✏️ یاد بگیرین چطور داده‌ها رو پردازش و تمیز کنین و بعدش یه داستان جذاب ازشون بسازین!

پاکسازی داده: کار با مقادیر گمشده و تشخیص داده‌های پرت.

🔗 دوره: Data Cleaning

مصورسازی داده: Matplotlib, Seaborn, Tableau

🔗 دوره: Data Visualization Tutorial

➖ ➖ ➖ ➖ ➖

🔢 گام چهارم: یادگیری یادگیری ماشین

✏️ وقتشه وارد دنیای جذاب یادگیری ماشین بشین! باید این مباحث رو بلد باشین:

یادگیری تحت نظارت: رگرسیون، دسته‌بندی.

یادگیری بدون نظارت: خوشه‌بندی، PCA، کشف ناهنجاری.

یادگیری عمیق: شبکه‌های عصبی، CNN, RNN


🔗 دوره: CS229: Machine Learning

➖ ➖ ➖ ➖ ➖

🔢 گام پنجم: کار با داده‌های حجیم و تکنولوژی‌های ابری

✏️ اگه قراره تو دنیای واقعی کار کنین، باید بلد باشین با داده‌های بزرگ (Big Data) و پردازش ابری کار کنین.

ابزارهای داده‌های حجیم: Hadoop, Spark, Dask

پلتفرم‌های ابری: AWS, GCP, Azure

🔗 دوره: Data Engineering

➖ ➖ ➖ ➖ ➖

🔢 گام ششم: پروژه‌های واقعی انجام بده!

✏️ تئوری کافیه، وقتشه دست به کد بشین! پروژه‌های واقعی انجام بدین و یه پورتفولیوی قوی بسازین.

مسابقات Kaggle: حل چالش‌های واقعی.

پروژه‌های End-to-End: جمع‌آوری داده، مدل‌سازی، پیاده‌سازی.

گیت‌هاب: پروژه‌هات رو توی GitHub منتشر کن.

🔗 پلتفرم: Kaggle 🔗 پلتفرم: ods.ai

➖ ➖ ➖ ➖ ➖

🔢 گام هفتم: یادگیری MLOps و استقرار مدل‌ها

✏️ یادگیری ماشین فقط ساخت مدل نیست! باید یاد بگیرین چطور یه مدل رو استقرار بدین و مانیتور کنین.

آموزش MLOps: ورژن‌بندی مدل، نظارت، بازآموزی مدل.

استقرار مدل‌ها: Flask, FastAPI, Docker

🔗 دوره: Stanford MLOps Course

➖ ➖ ➖ ➖ ➖

🔢 گام هشتم: به‌روز بمون و شبکه‌سازی کن

✏️ علم داده هر روز در حال تغییره، پس لازمه که هر روز خودتون رو آپدیت کنین و با آدمای باتجربه و متخصص این حوزه مرتب در ارتباط باشین.

مقالات علمی بخونین: arXiv, Google Scholar

با کامیونیتی داده در ارتباط باشین:

🔗 سایت: Papers with code
🔗 سایت: AI Research at Google



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


@DataScience_ir - Data Cleaning.pdf
1.1Мб
✏️ جزوه جامع پاکسازی داده‌ها با Python, R, Excel, Power BI, SQL


👨🏻‍💻همیشه اولین توصیه‌ای که برای انجام یک پروژه علوم داده می‌کنم اینه که، قبل از اینکه مدل بسازین، داده‌هاتون رو تمیز کنین!

❗️ 80% از زمان یک دانشمند داده صرف پاکسازی و اصلاح داده‌های بهم‌ریخته می‌شه.


▶️ چرا پاک‌سازی داده‌ها انقدر ضروریه؟

⏯️ حذف داده‌های تکراری: دیگه خبری از رکوردهای اضافی نیست!

2️⃣ اصلاح فرمت‌ها: داده استاندارد = تحلیل بی‌دردسر!

3️⃣ مدیریت داده‌های ناقص: بدون گپ، بدون خطا!

4️⃣ شناسایی داده‌های پرت: ناهنجاری‌ها رو کنترل کن!

5️⃣ افزایش دقت مدل‌ها: داده تمیز = پیش‌بینی بهتر!


🔀 مراحل ضروری پاک‌سازی داده:

✔️ حذف داده‌های تکراری و استانداردسازی
✔️ پر کردن یا حذف داده‌های ناقص
✔️ شناسایی و اصلاح داده‌های پرت
✔️ نرمال‌سازی و تبدیل داده‌ها
✔️ خودکارسازی پاک‌سازی با Python, SQL


💡 نکته طلایی: پاک‌سازی داده‌ها فقط یه کار روتین نیست، پایه و اساس تحلیل‌هایِ قابل اعتماد شماست!



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


Видео недоступно для предпросмотра
Смотреть в Telegram
🔴 اولین AI Copilot ویژه دیتاساینستیست‌ها!


👨🏻‍💻 معرفی می‌کنم؛ Data Copilot یه دستیار خفن از Mito. دستیار هوشمندی که شیوه کار با Jupyter Notebook رو برای همیشه براتون تغییر می‌ده و باعث میشه سریع‌تر، راحت‌تر و بهینه‌تر کار کنین.


✏️ چرا عاشقش می‌شین؟

🔢 کد رو فوری براتون می‌نویسه: فقط ازش بپرسین، خودش کد رو تولید می‌کنه.

🔢 خطاها رو تو چند ثانیه رفع می‌کنه: دیگه ساعت‌ها وقتتون روی دیباگ هدر نمی‌ره.

🔢 کدتون رو بهینه می‌کنه: پیشنهادهای هوشمند برای بهینه‌سازی می‌ده.

🔢 دیتافریم‌هاتون رو تعاملی می‌کنه و نمودارها رو خودکار می‌سازه.

🔢 تحلیل داده رو از صفر تا صد براتون انجام می‌ده: از پاکسازی داده‌ها گرفته تا ویژوال‌سازی، همه‌چی رو ساپورت می‌کنه!


✔️ و بهترین قسمتش؟ اوپن سورسه و فقط با یه دستور نصب میشه. فقط کافیه این یه خط رو اجرا کنین:👇

pip install mito-ai mitosheet

🤖 AI Copilot
📄 Mito
🐱 GitHub-Repos



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa


پنج درسی که تو 5 سال اولم به عنوان یه دانشمند داده یاد گرفتم:


🔢 اول داده، بعد مدل!

✏️ قبل از اینکه توی انتخاب مدل و مدل سازی غرق بشی، اول ببین اصلاً داده‌‌های که داری درست و تمیزه یا نه. ۷۰٪ کار یه پروژه ML تمیز کردن داده‌هاست، نه مدل زدن! پس اول داده‌هاتو بررسی و تمیز کن، بعد برو سراغ مدل!

➖ ➖ ➖ ➖ ➖ ➖

🔢 انتخاب متریک درست، شاه‌کلید موفقیته!

✏️ هر مدلی که بزنی، بدون یه متریک درست، هیچ ارزشی نداره. یه مدل ممکنه روی کاغذ عالی به نظر بیاد، ولی اگه متریک درستی برای سنجیدنش نداشته باشی، نمی‌فهمی واقعاً خوبه یا نه. دقت (accuracy) همیشه بهترین گزینه نیست. گاهی F1-score یا AUC-ROC مهم‌تره. پس متریک رو هوشمندانه انتخاب کن.

➖ ➖ ➖ ➖ ➖ ➖

🔢 همیشه کارِ تو با ساده‌ترین روش شروع کن!

✏️ قبل از این که مدل‌های سنگین و پیچیده رو امتحان کنی، یه بیس‌لاین (Baseline) ساده بزن. لازم نیست از همون اول مدل‌های پیچیده‌ای مثل شبکه‌های عصبی رو بیاری وسط. خیلی وقتا یه مدل ساده مثل رگرسیون خطی یا حتی یه رول‌بیس می‌تونه کلی از کارت رو راه بندازه.

➖ ➖ ➖ ➖ ➖ ➖

🔢 تحلیل اکتشافی داده‌ها (EDA) واجبه!

✏️ بله، واجبه! چون با EDA می‌فهمی توی دیتاستت چی می‌گذره. پس قبل از مدل‌سازی، یه نگاه دقیق به داده‌هات بنداز. ببین توزیع‌شون چطوریه، مقدارهای گمشده (Missing Values) داری یا نه، داده‌های پرت (Outliers) چقدرن. این کار بهت کمک می‌کنه بفهمی چه ویژگی‌هایی مهمن و از اول مسیر رو درست بری.

➖ ➖ ➖ ➖ ➖ ➖

🔢 کدت رو طوری بنویس که چند وقت بعد خودت هم بفهمیش!

✏️ قابلیت تکرارپذیری، یعنی هر کسی بتونه کدت رو اجرا کنه و همون نتیجه رو بگیره. بارها پیش میاد که یه ماه بعد برمی‌گردی سراغ کدی که نوشتی و هیچی ازش نمی‌فهمی! همیشه مرتب کدنویسی کن و از notebooks بی‌نظم دوری کن، از از کامنت‌گذاری، نسخه‌بندی (Git)، logging و documentation استفاده کن.

✍️ اگه اینارو زودتر می‌دونستم، کلی از زمانم ذخیره می‌شد!



🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa

Показано 20 последних публикаций.