چکیده
شبیه سازی ماشین خواندن انسان، برای تقریبا سه دهه موضوع تحقیقات فشرده ای بوده است. تعداد زیادی از مقالات و گزارشات پژوهشی در مورد کاراکترهای لاتین، چینی و ژاپنی منتشر شده است. با این حال، کار کمی در مورد تشخیص خودکار کاراکترهای عربی به دلیل پیچیدگی متن چاپ شده و دست نوشته انجام شده است و این مشکل هنوز هم یک میدان تحقیقاتی باز است. هدف اصلی این مقاله، ارائه حالت عربی پژوهش تشخیص کاراکتر در سراسر دو دهه گذشته است.
مقدمه
سیستم های تشخیص کاراکتر می توانند به طور فوق العاده به پیشرفت فرآیند اتوماسیون کمک نمایند و می توانند تعامل بین انسان و ماشین را در بسیاری از کاربردها، از جمله اتوماسیون اداری، تأیید بررسی و انواع زیادی از بانکداری، کاربردهای کسب و کار و ورود اطلاعات بهبود ببخشند.
روش های مختلف پوشش داده شده تحت اصطلاح کلی تشخیص کاراکتر در دو دسته آنلاین یا آفلاین قرار می گیرند که هر یک دارای الگوریتم های تشخیص و سخت افزار خاص خود هستند.
مشخصات کلی نوشتن عربی
مقایسه ویژگی های مختلف از متون زبان های عربی، لاتین، عبری و هندی در جدول 1 بیان شده است. عربی از راست به چپ نوشته می شود. متن عربی (با دستگاه چاپ و یا دست نوشته) به صورت خط شکسته است و حروف عربی به طور معمول به خط پایه متصل می شوند. نشان داده خواهد شد که این قابلیت اتصال در فرآیند تقسیم بندی مهم است. برخی از متون چاپی ماشین و دست نوشته، خط شکسته نیستند، اما بسیاری از متون عربی اینگونه هستند، و در نتیجه تعجب آور نیست که میزان تشخیص کاراکتر عربی کمتر از کاراکترهای ناپیوسته مانند چاپ به زبان انگلیسی است.
تشخیص کاراکترهای عربی
دو استراتژی وجود دارند که برای تشخیص کاراکتر عربی چاپی و دست نوشته استفاده می شوند. اینها را می توان به شرح زیر طبقه بندی نمود:
(1) استراتژی های جامع گرا که در آن تشخیص در سطح کلی بر اساس ارائه کلی کلمات است و در آن هیچ تلاشی برای شناسایی کاراکترهای جداگانه وجود ندارد. این استراتژی ها در اصل برای تشخیص گفتار معرفی می شوند و می توانند به دو رده تقسیم شوند:
(1. 1) روش های مبتنی بر اندازه گیری های فاصله با استفاده از برنامه نویسی پویا. (48، 49)
(1. 2) روش های مبتنی بر چارچوب احتمالاتی (مدل های مخفی Markov). (50-55)
(2) استراتژی های تحلیلی که در آن کلمات به عنوان یک کل در نظر گرفته نمی شوند، بلکه به عنوان توالی از واحدهای اندازه کوچک در نظر گرفته می شوند و تشخیص به طور مستقیم در سطح کلمه انجام نمی شود، بلکه در سطح میانی با این واحدها برخورد می شود، که می تواند حروف الفبا، بخش ها، شبه حروف، و غیره باشد (47، 56، 57)
تقسیم بندی کلمه
مرحله تقسیم بندی، یک گام ضروری در تشخیص متن عربی چاپ شده است. هر گونه خطا در بخش بندی شکل اولیه از کاراکترهای عربی، ارائه متفاوتی از جزء کاراکتر را تولید خواهد نمود. دو روش برای بخش بندی کلمات عربی چاپی و دست نوشته در کاراکترهای فردی استفاده می شود: بخش بندی های صریح و ضمنی:
(1) تقسیم بندی ضمنی (تقسیم بندی مستقیم): در این روش، کلمات به طور مستقیم به حروف تقسیم می شوند. این نوع از تقسیم بندی معمولا با قوانینی طراحی می شود که برای شناسایی تمام نقاط تقسیم بندی کاراکتر تلاش می نماید.
(2) تقسیم بندی صریح: در این مورد، کلمات از نظر خارجی به شبه حروف تقسیم بندی می شوند که پس از آن به صورت جداگانه تشخیص داده می شوند. این رویکرد معمولا به دلیل پیچیدگی فزاینده پیدا کردن فرضیه های کلمه مطلوب گران تر است.
نتایج
در این مقاله، مسائل مربوط به کاراکترهای عربی چاپ شده و دست نوشته ارائه شد و بسیاری از پژوهش های مهم به طور خلاصه در تلاش برای ارائه وضعیت فعلی پژوهش تشخیص کاراکتر عربی شرح داده شدند. این هنوز هم یک حوزه تحقیقاتی باز است و هنوز هیچ سیستم تجاری عربی OCR در دسترس وجود دارد. این به دلیل مشکل تقسیم بندی است که در واقع شبیه به تقسیم بندی دست خط شکسته در بسیاری از زبان ها، و به دلیل پیچیدگی کاراکترهای عربی است. علاوه بر این، تمام الگوریتم های ارائه شده در این مقاله با متن بی صدا سرو کار دارند و تشخیص تفکیک واکه ها، یک حوزه پژوهش بسیار مهم در زبان عربی است.
با این حال، ارائه نتایج مقایسه ای برای روش پیشنهادی تا کنون بسیار دشوار است. بسیاری از روش های مورد استفاده برای دست خط عربی روی پایگاه های داده کوچک و مختلف ایجاد شده توسط تعداد کمی از مردم مورد آزمایش قرار گرفتند، زمانی که هیچ پایگاه داده عربی رایج در دسترس وجود ندارد. این برای همه روش های مورد استفاده برای کاراکترهای چاپ عربی هم درست است. به همین دلیل است که نتایج در بخش های قبلی که به شرح تکنیک ها اختصاص داده نشده اند، گنجانده نشدند.
همانطور که قبلا گفته شد، هیچ تکنیک محاسباتی حیاتی در این زمینه هنوز به طور کامل بررسی نشده است. به این ترتیب، این زمینه برای تحقیقات آینده از اهمیت زیادی برخوردار است.
این مقاله ISI در سال 1998 در نشریه الزویر و در مجله تشخیص الگو، توسط دانشکده علوم و مهندسی کامپیوتر منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله تشخیص کاراکتر عربی خارج از خط در سایت ای ترجمه مراجعه نمایید.