@DataScience_ir - NLP in Data science.pdf
📄 جزوه «کاربرد NLP در علم داده»
👨🏻💻 وقتی برای اولین بار با NLP کار کردم، یکی از چالشهای بزرگم پردازش دادههای نامنظم متنی بود. اما کمکم یاد گرفتم که با یه سری تکنیک، این دادهها رو تمیز و آماده تحلیل کنم. تصمیم گرفتم این تکنیکها رو بنویسم و نتیجهشم شد این جزوه.
✔️ مهمترین تکنیکهای NLP که توی پروژههام استفاده کردم:
🔢 توکنسازی: اولین قدم، شکستن متن به واحدهای کوچیکتر مثل کلمه یا جمله است تا بتونم راحتتر روش پردازش انجام بدم.
🔢 ریشهیابی و لماتیزه کردن: وقتی داشتم روی یک مدل تحلیل احساسات کار میکردم، فهمیدم که "دویدن"، "دویدم" و "دوه" همشون یه معنی دارن! این تکنیک کمک کرد کلمات رو به شکل پایهشون برگردونم.
🔢 حذف کلمات زائد: کلماتی مثل "و"، "به"، "از" که ارزش خاصی توی تحلیل ندارن، حذف میکنم تا مدل فقط روی اطلاعات مهم تمرکز کنه.
🔢 برچسبگذاری اجزای کلام: یه بار برای تحلیل متن نظرات کاربران، لازم شد بدونم که هر کلمه اسم، فعل یا صفت هست تا بفهمم چه بخشهایی از جمله بار معنایی قویتری دارن.
🔢 شناسایی موجودیتهای نامدار: وقتی داشتم گزارشهای خبری رو پردازش میکردم، این تکنیک به من کمک کرد اسم افراد، مکانها و تاریخهای مهم رو از متن بیرون بکشم.
🔢 ابر کلمات: خیلی وقتها برای درک سریع دادههای متنی، ابر کلمات درست میکنم تا ببینم کدوم کلمات بیشتر تکرار شدن و احتمالاً مهمترن.
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
👨🏻💻 وقتی برای اولین بار با NLP کار کردم، یکی از چالشهای بزرگم پردازش دادههای نامنظم متنی بود. اما کمکم یاد گرفتم که با یه سری تکنیک، این دادهها رو تمیز و آماده تحلیل کنم. تصمیم گرفتم این تکنیکها رو بنویسم و نتیجهشم شد این جزوه.
✔️ مهمترین تکنیکهای NLP که توی پروژههام استفاده کردم:
🔢 توکنسازی: اولین قدم، شکستن متن به واحدهای کوچیکتر مثل کلمه یا جمله است تا بتونم راحتتر روش پردازش انجام بدم.
🔢 ریشهیابی و لماتیزه کردن: وقتی داشتم روی یک مدل تحلیل احساسات کار میکردم، فهمیدم که "دویدن"، "دویدم" و "دوه" همشون یه معنی دارن! این تکنیک کمک کرد کلمات رو به شکل پایهشون برگردونم.
🔢 حذف کلمات زائد: کلماتی مثل "و"، "به"، "از" که ارزش خاصی توی تحلیل ندارن، حذف میکنم تا مدل فقط روی اطلاعات مهم تمرکز کنه.
🔢 برچسبگذاری اجزای کلام: یه بار برای تحلیل متن نظرات کاربران، لازم شد بدونم که هر کلمه اسم، فعل یا صفت هست تا بفهمم چه بخشهایی از جمله بار معنایی قویتری دارن.
🔢 شناسایی موجودیتهای نامدار: وقتی داشتم گزارشهای خبری رو پردازش میکردم، این تکنیک به من کمک کرد اسم افراد، مکانها و تاریخهای مهم رو از متن بیرون بکشم.
🔢 ابر کلمات: خیلی وقتها برای درک سریع دادههای متنی، ابر کلمات درست میکنم تا ببینم کدوم کلمات بیشتر تکرار شدن و احتمالاً مهمترن.
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa