علیرضا کاشانی
علیرضا کاشانی
خواندن ۲ دقیقه·۶ ماه پیش

هشدار: از کلان الگوهای زبانی چندوجهی (MLLMs) برای استخراج داده استفاده نکنید

هیچ ادم فنی نیست که از کلان الگوهای زبانی چندوجهی استفاده نکرده باشه و احساس خوب استقلال و سریع تر شدن تو کارشو حس نکرده باشه.

خیلی کنجکاو بودم که داده های انتخابات اخیر ۱۴۰۳ رو بررسی کنم که تو این فرآید با چند تا چالش روبرو شدم. (مقاله در مورد اینکه چطور ضریب شکست آرای پزشکیان توسط قالیباف رو بدست اوردم از https://vrgl.ir/VjPO7 بخونید).

مهم ترین چالش که مرتبط به این نوشته میشه تبدیل تصاویر جدولی به عدد. قدیما به این کار میگفتن OCR ولی الانه ها زیر دسته ی Scene Text Recognition. اولش از چت جی پی تی 4o استفاده کردم و خیلی خوب خروجی داده و تا اخر مساله پیش رفتم ولی تو قسمت تحلیل خیلی جواب ها تعجب برانگیز بود. برگشتم و دیدم خیلی اعداد فضایی به نظر میرسن. اولش فکر کردم به خاطر اینکه از فارس نیوز هستند و باید دیتا رو از چشمه ی پاک تر بگیرم - برا همین رفتم سراغ سایت الف ولی بعد دیدم نه بابا LLM توهم زده.

https://www.alef.ir/news/4030417081.html منبع

دقت مدل ۴o -

و دقت مدل رایگان گوگل جمنای:‌

تحلیل:

گوگل جمنی داره فراخوانی تابع (function calling) انجام میده و چون تصویر بلنده به احتمال زیاد داره تصویر رو عمودی بُرِش میده و نصف زیرین تصویر به موتور تشخیص نمیرسه برا همین خروجی نداره. و از اون طرف کل چهارچوب جدول رو درست در نمیاره (اینکه شش تا ستونه ولی خروجی پنج ستونه است). این یکی از خطاهای رایج OCR/STR

از اون طرف OpenAI40 تشخیص اولیه اش خوبه - دست کم برا چند ردیف اول برا همینطور که میره پایین خطا میره بالا. این هم یکی از خطاهای رایج مدل های دنبالیه (Markov chain) و next token prediction - چون هر خروجی وابسه به ورودی های قبله این خطا بیشتر میشه.

پیام اصلی

اگه سرو کارتون با تحلیل داده است واقعا خیلی احتیاط کنید - چون خطا بالاتر از چیزی که فکرشو میکنید. خطایی هم هست که به چشم نمیاد

پیام فرعی

اگه نوشته براتون جالب بود طوری که فک میکنید میخواید روش وقت بیشتری بگزارید من رو هم مطلع کنید.


* به روزرسانی :

مقاله https://github.com/Yuliang-Liu/MultimodalOCR با عنوان

"On the hidden mystery of OCR in large multimodal models, 2024 Jan

به کیفیت MLLM ها رو همین موضوع می پردازه.

هوش مصنوعیopenaigeminiیادگیری ماشینیآمار
شاید از این پست‌ها خوشتان بیاید