Post #2547 — Data Science | علم داده (@DataScience

TGStat

Type to search

Advanced channel search

English

Site language

Russian English Uzbek
Sign In

Catalog

Channels and groups catalog Search for channels
Add a channel/group
Ratings

Rating of channels Rating of groups Posts rating
Ratings of brands and people
Analytics
Search by posts
Telegram monitoring

Data Science | علم داده

25 Jan, 22:36

Open in Telegram Share Report

🔥این کتابخونه پایتون واقعاً شگفت‌انگیزه!

👨🏻‍💻 خیلی وقت‌ها استخراج و تحلیل داده‌های ساختار یافته در فایل‌های PDF، به شدت زمان‌بره، اما با این ابزار، این کار به‌راحتی انجام می‌شه.

✅ فقط با چند خط کد می‌تونین جداول رو از فایل‌های PDF استخراج کنین و به یک دیتافریم پانداس تبدیل کنین!

❗️ البته دقت کنین که این روش فقط وقتی خوب کار می‌کنه که:

1️⃣جدول‌های فایل pdf با کیفیت باشه.
2️⃣بیشتر از یک جدول نباشه!
3️⃣جدول‌ها خط‌کشی و مرز مشخصی داشته باشن.

✅ نکته: برای پردازش بیشتر از یک جدول، استفاده از Regex بعد از اینکه فایل رو با یه OCR پردازش کنین و خطوط رو جدا کنین، همچنان راه بهتریه.

┌ 🏳️‍🌈 pdfplumber library
├ 📄 pdfplumber 0.4.4
└ 🐱 GitHub-Repos

✏️ علاوه بر این کتابخونه، PyMuPDF4LLM هم اخیراً سروصدای زیادی کرده و گزینه‌یِ جذابیه. اگه در حال کار روی پروژه‌های مرتبط با مدل‌های زبان بزرگ (LLMs) هستین و نیاز به پردازش PDF دارین، حتماً ارزش بررسی رو داره.👌🏼

🌐 #علم_داده #DataScience
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
📊 دانشمند داده شوید :
📊 @DataScience_ir

3.4k 0 162 17

Catalog

Channels and groups catalog Channels compilations Search for channels Add a channel/group

Ratings

Rating of Telegram channels Rating of Telegram groups Posts rating Ratings of brands and people

API

API statistics Search API of posts API Callback

Our channels

@TGStat @TGStat_Chat @telepulse @TGStatAPI

Read

Blog Telegram Research 2019 Telegram Research 2021 Telegram Research 2023

Contacts

Support Email Jobs

Miscellaneous

Terms and conditions Privacy policy Public offer

Our bots

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

ИП Кижикин | ИНН: 616803600305 | Москва, Оборонная 6-28

Site language