وقتی که با مدلهای #LLM کار میکنید و قراره فایل های پیچیده pdf را تحلیل کنه نیاز دارید که اطلاعات را خیلی دقیق از فایلها استخراج کرده باشید. برای اینکار نیاز هست که با استفاده از روش هایی فایلها را parse کنیم و کلی هم روش برای این کار هست. ولی هیچ نوع metric برای ارزیابی روش ها نیست. حالا یک دیتاست و بنچمارک عالی برای ارزیابی (evaluation) روش های parsing فایلهای pdf هست که این کارو راحت تر میکنه.
HF Link: https://huggingface.co/datasets/upstage/dp-bench
منبع : توییتر
HF Link: https://huggingface.co/datasets/upstage/dp-bench
منبع : توییتر