ابزارهای زیادی برای خوندن و استخراج (extraction) متن از فایلهای مختلف بخصوص PDF وجود داره. اما ابزاری که بتونه متن نمودار/چارت تصویر و جدول را هم دقیق بکشه بیرون زیاد نیست یا حداقل نبود تا اخیرا که چندین tool خوب اومده که دقتشون واقعا عالیه.
چرا این ابزارها خیلی مهم اند؟ چون که در خیلی از اپلیکیشن ها مدلهای LLM نیاز دارن به محتوای این فایل ها تا بتونن جواب درست را تولید کنن.
یکی از این ابزارها که واقعا دقتش بالاست اسمش MinerU هست.
فیچرهاش که خیلی زیادند ولی بعضی هاشون:
- خروجی متن به ترتیبی قابل فهم برای انسان، مناسب برای طرح های تک ستونی، چند ستونی و پیچیده.
- حفظ ساختار سند (document) اصلی، از جمله عناوین، پاراگراف ها، لیست ها و غیره.
- استخراج تصاویر، توضیحات تصویر، جداول، عناوین جدول و پانوشت ها.
- تشخیص خودکار و تبدیل فرمول های موجود در سند به فرمت LaTeX.
- تشخیص خودکار و تبدیل جداول موجود در سند به فرمت HTML.
- تشخیص خودکار PDF های اسکن شده و PDF های بهم ریخته و فعال کردن قابلیت OCR.
- ویژگی OCR از تشخیص و شناسایی در 84 زبان پشتیبانی می کند.
فارسی را هم امتحان کردم کار میکنه با دقت بالا.
https://huggingface.co/spaces/opendatalab/MinerU