🔥این کتابخونه پایتون واقعاً شگفتانگیزه!
👨🏻💻 خیلی وقتها استخراج و تحلیل دادههای ساختار یافته در فایلهای PDF، به شدت زمانبره، اما با این ابزار، این کار بهراحتی انجام میشه.
✅ فقط با چند خط کد میتونین جداول رو از فایلهای PDF استخراج کنین و به یک دیتافریم پانداس تبدیل کنین!
❗️ البته دقت کنین که این روش فقط وقتی خوب کار میکنه که:
1️⃣جدولهای فایل pdf با کیفیت باشه.
2️⃣بیشتر از یک جدول نباشه!
3️⃣جدولها خطکشی و مرز مشخصی داشته باشن.
✅ نکته: برای پردازش بیشتر از یک جدول، استفاده از Regex بعد از اینکه فایل رو با یه OCR پردازش کنین و خطوط رو جدا کنین، همچنان راه بهتریه.
┌ 🏳️🌈 pdfplumber library
├ 📄 pdfplumber 0.4.4
└ 🐱 GitHub-Repos
✏️ علاوه بر این کتابخونه، PyMuPDF4LLM هم اخیراً سروصدای زیادی کرده و گزینهیِ جذابیه. اگه در حال کار روی پروژههای مرتبط با مدلهای زبان بزرگ (LLMs) هستین و نیاز به پردازش PDF دارین، حتماً ارزش بررسی رو داره.👌🏼
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir
👨🏻💻 خیلی وقتها استخراج و تحلیل دادههای ساختار یافته در فایلهای PDF، به شدت زمانبره، اما با این ابزار، این کار بهراحتی انجام میشه.
✅ فقط با چند خط کد میتونین جداول رو از فایلهای PDF استخراج کنین و به یک دیتافریم پانداس تبدیل کنین!
❗️ البته دقت کنین که این روش فقط وقتی خوب کار میکنه که:
1️⃣جدولهای فایل pdf با کیفیت باشه.
2️⃣بیشتر از یک جدول نباشه!
3️⃣جدولها خطکشی و مرز مشخصی داشته باشن.
✅ نکته: برای پردازش بیشتر از یک جدول، استفاده از Regex بعد از اینکه فایل رو با یه OCR پردازش کنین و خطوط رو جدا کنین، همچنان راه بهتریه.
┌ 🏳️🌈 pdfplumber library
├ 📄 pdfplumber 0.4.4
└ 🐱 GitHub-Repos
✏️ علاوه بر این کتابخونه، PyMuPDF4LLM هم اخیراً سروصدای زیادی کرده و گزینهیِ جذابیه. اگه در حال کار روی پروژههای مرتبط با مدلهای زبان بزرگ (LLMs) هستین و نیاز به پردازش PDF دارین، حتماً ارزش بررسی رو داره.👌🏼
🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir