▫️استخراج متن فارسی از عکس بیکیفیت: مقایسه سه مدل زبانی بزرگ
زمانی نه چندان دور OCR متون فارسی، رویایی دست نیافتنی بود. اما کم کم این رویا به حقیقت پیوست و در حال حاضر OCR متون فارسی توسط نرمافزارها و سرویسهای زیادی (رایگان یا پولی) به راحتی انجام میشود.
یکی از کارکردهای اکثر مدلهای زبانی بزرگ، OCR متون از عکسهاست. OCR متونی که با فونت مناسب نوشته شدهاند و بخوبی هم اسکن شدهاند، کار دشواری نیست. اما وقتی عکس، کیفیت پایینتری داشته باشد و فونتها هم کمی ناخوانا باشند، آیا LLM ها باز هم قادر خواهند بود با دقت بالا، آن را OCR کنند.
عکس پیوست شده را در سه مدل زبانی امتحان کردم. عکس مد نظر از یک کتاب قدیمی و اسکن شده برداشته شده است.
ابتدا از ChatGPT 4o شروع کردم و بعد از تلاش فراوان نوشت که در OCR زبان فارسی مشکل دارد.
مدل استدلالی ChatGPT o3-mini-high را امتحان کردم. OCR کرد و خروجی زیر را تحویل داد:
رسماً چرت و پرت تحویلم داد. داستان نوشته برای خودش! " مکتب روانشناسی نیکسا سنختگر " خیلی مکتب خوبی است!
از DeepSeek خواستم این کار را انجام دهد و خروجی زیر را ارائه کرد:
اشکالات:
"یا اندکی بیشتر" را "بالندگی بیشتر" تشخیص داد.
روانشناسی "هورمیک" را روانشناسی "انسانگرا" تشخیص داد!
مشکل دیگر، چسبیدن نیمفاصلهها است که این مشکل کلی DeepSeek است.
از Claude 3.5 Sonnet استفاده کردم و خروجی زیر را ارائه داد:
تمام کلمات را به درستی تشخیص داد و حتی برخی موارد را هم اصلاح کرد. مثلاً "پابعرصهی وجود" را بصورت "پا به عرصهی وجود" نوشت. اگر میتوان را میتوان مینوشت که دیگه نور علی نور میشد!
بنابراین در تستی که انجام دادم بهترین خروجی را Claude 3.5 Sonnet تحویل داد و سپس DeepSeek. اما ChatGPT کلاً به جاده خاکی زد. ورژنهای شخصیسازیشده GPT وجود دارند که میتوان از آنها هم استفاده کرد.
البته طبیعی است که با یک عکس نمیتوان درباره عملکرد این مدلها قضاوت دقیقی داشت، بهتر است شما هم امتحان کنید و اگر دوست داشتید، تجربهتان را با ما به اشتراک بگذارید.
#AI
#LLM
#OCR
🆔 @irevidence
زمانی نه چندان دور OCR متون فارسی، رویایی دست نیافتنی بود. اما کم کم این رویا به حقیقت پیوست و در حال حاضر OCR متون فارسی توسط نرمافزارها و سرویسهای زیادی (رایگان یا پولی) به راحتی انجام میشود.
یکی از کارکردهای اکثر مدلهای زبانی بزرگ، OCR متون از عکسهاست. OCR متونی که با فونت مناسب نوشته شدهاند و بخوبی هم اسکن شدهاند، کار دشواری نیست. اما وقتی عکس، کیفیت پایینتری داشته باشد و فونتها هم کمی ناخوانا باشند، آیا LLM ها باز هم قادر خواهند بود با دقت بالا، آن را OCR کنند.
عکس پیوست شده را در سه مدل زبانی امتحان کردم. عکس مد نظر از یک کتاب قدیمی و اسکن شده برداشته شده است.
ابتدا از ChatGPT 4o شروع کردم و بعد از تلاش فراوان نوشت که در OCR زبان فارسی مشکل دارد.
مدل استدلالی ChatGPT o3-mini-high را امتحان کردم. OCR کرد و خروجی زیر را تحویل داد:
در خلال پنجاه سال یا اندکی بیشتر – یعنی از زمانی که روانشناسی بصورت دانشی مستقل در آمد – صدها مکتب، نگرش، گرایش در این زمینه پدید آمده، وجود داشته است. گروهها، خردهگروهها و گروههای فرعی در این زمینه پیدا شدند.
اصلا مکتبهایی که از معروفیت بسیار برخوردار بودند باز میتوان از مکتب روانشناسی نیکسا سنختگر گفت. روانشناسی پیدا و روانشناسی محض و معرفت بروند رفتاری و ... نا بهدار.
رسماً چرت و پرت تحویلم داد. داستان نوشته برای خودش! " مکتب روانشناسی نیکسا سنختگر " خیلی مکتب خوبی است!
از DeepSeek خواستم این کار را انجام دهد و خروجی زیر را ارائه کرد:
در خلال پنجاه سال بالندگی بیشتر، یعنی از زمانی که روانشناسی بهصورت دانشی مستقل درآمد، صدها «مکتب» فکری گوناگون در این زمینه پا به عرصه وجود گذاشته است. گروهها، خردهگروهها و گروههای باز هم کوچکتری در این زمینه پیدا شدند. از میان مکتبهایی که از معروفیت بیشتری برخوردار بودهاند، میتوان از مکتب روانشناسی ژنتیک، ساختگرایی (12)، کارکردگرایی، روانشناسی پویا (14)، روانشناسی انسانگرا (15)، روانشناسی گشتالتی (17)، روانشناسی انعکاس مشروط، و بهویژه مکتب آمریکایی رفتارگرایی (18) نام برد.
اشکالات:
"یا اندکی بیشتر" را "بالندگی بیشتر" تشخیص داد.
روانشناسی "هورمیک" را روانشناسی "انسانگرا" تشخیص داد!
مشکل دیگر، چسبیدن نیمفاصلهها است که این مشکل کلی DeepSeek است.
از Claude 3.5 Sonnet استفاده کردم و خروجی زیر را ارائه داد:
در خلال پنجاه سال یا اندکی بیشتر، یعنی از زمانی که روانشناسی بصورت دانشی مستقل درآمد، صدها "مکتب" فکری گوناگون در این زمینه پا به عرصهی وجود گذاشته است. گروهها، خردهگروهها و گروههای باز هم کوچکتری در این زمینه پیدا شدند.
از میان مکتبهایی که از معروفیت بیشتری برخوردار بودند، میتوان از مکتب روانشناسی ژنتیک، ساختگرایی (۱۳)، کارکردگرایی، روانشناسی پویا (۱۴)، روانشناسی هورمیک (۱۵)، روانشناسی گشتالتی (۱۷)، روانشناسی انعکاسی مشروط و بویژه مکتب آمریکایی رفتارگرایی (۱۸) نام برد.
تمام کلمات را به درستی تشخیص داد و حتی برخی موارد را هم اصلاح کرد. مثلاً "پابعرصهی وجود" را بصورت "پا به عرصهی وجود" نوشت. اگر میتوان را میتوان مینوشت که دیگه نور علی نور میشد!
بنابراین در تستی که انجام دادم بهترین خروجی را Claude 3.5 Sonnet تحویل داد و سپس DeepSeek. اما ChatGPT کلاً به جاده خاکی زد. ورژنهای شخصیسازیشده GPT وجود دارند که میتوان از آنها هم استفاده کرد.
البته طبیعی است که با یک عکس نمیتوان درباره عملکرد این مدلها قضاوت دقیقی داشت، بهتر است شما هم امتحان کنید و اگر دوست داشتید، تجربهتان را با ما به اشتراک بگذارید.
#AI
#LLM
#OCR
🆔 @irevidence