چند ضلعی
چند ضلعی
خواندن ۲۴ دقیقه·۴ سال پیش

پردازش تصویر چیست؟ | مقدمه ای بر پردازش تصویر

تاریخچه

دراوایل دهه 60 ناسا شروع به ارسال تصاویر تلویزیونی مبهمی از سطح ماه به زمین کرد. استخراج جزئیات تصویر برای یافتن محلی برای فرود سفینه آپولو نیازمند اعمال تصمیماتی روی تصاویر بود بدین ترتیب زمینه تخصصی پردازش تصاویر رقومی آغاز گردید و مثل تمام تکنولوژی های دیگر سریعاً استفاده های متعدد پیدا کرد از سال ۱۹۶۴ تاکنون، موضوع پردازش تصویر، رشد زیادی کرده است این کار درواقع یک نوع تبدیل سیگنال است که ورودی آن تصویر است،مانند (فیلم و عکس) خروجی ها ممکن است تصویر یا ویژگی های مرتبط با آن تصویر باشند. امروزه با پیشرفت و توسعه سریع تکنولوژی، پردازش تصویر کاربرد بیشتری در جنبه های مختلف کسب و کار و علوم مهندسی و علوم کامپیوتر از خود به نمایش گذاشته است.

پردازش تصویرچیست؟


بیش از ۹۰ درصد اطلاعات پیرامون ما به وسیله ی مشاهده صورت می پذیرد. با پیشرفت فناوری امکان ثبت، پردازش و انتقال تصاویر به صورت دیجیتال میسر شده است پردازش تصاویر امروزه بیشتر به موضوع پردازش تصویر دیجیتال گفته می‌شود که شاخه‌ای از دانش رایانه است که با پردازش سیگنال دیجیتال که نماینده تصاویر برداشته شده با دوربین دیجیتال یا پویش شده توسط پویشگر هستند سر و کار دارد. در معنای خاص آن پردازش تصویر عبارتست از هر نوع پردازش سیگنال که ورودی یک تصویر است مثل عکس یا صحنه‌ای از یک فیلم. خروجی پردازشگر تصویر می‌تواند یک تصویر یا یک مجموعه از نشان‌های ویژه یا متغیر (ریاضی)های مربوط به تصویر باشدپردازش تصاویر دارای دو شاخه عمدهٔ بهبود تصاویر و بینایی ماشین است.

بهبود تصاویر دربرگیرندهٔ روشهایی چون استفاده از فیلتر محوکننده و افزایش تضاد برای بهتر کردن کیفیت دیداری تصاویر و اطمینان از نمایش درست آنها در محیط مقصد (مانند چاپگر یا نمایشگر رایانه)است، در حالی که بینایی ماشین به روشهایی می‌پردازد که به کمک آنها می‌توان معنی و محتوای تصاویر را درک کرد تا از آنها در کارهایی چون رباتیک و محور تصاویر استفاده شود.

امروزه با پیشرفت سیستمهای تصویر برداری و الگوریتمهای پردازش تصویر شاخه جدیدی در کنترل کیفیت و ابزار دقیق به وجود آمده‌است برنامه‌هایی مانند اینستاگرام، کم‌اسکنر و... از الگوریتم‌های مربوط به پردازش تصویر استفاده می‌کنند عموماً دو راه برای برنامه نویسی در حوزه پردازش تصویر در پیش دارید: استفاده از زبان برنامه نویسی پایتون یا متلب به طورخلاصه میتوان گفت پردازش تصویر، مطالعه و بررسی هر نوع الگوریتمی گویند که یک عکس به عنوان ورودی دریافت کرده و یک عکس به عنوان خروجی برمی گرداند

کاربرد های‍ عمومی پردازش تصویر

زمینه های مختلف کاربرد پردازش تصویر عبارتند از صنعت، هواشناسی، شهرسازی، کشاورزی، علوم نظامی و امنیتی، نجوم و فضا نوردی، پزشکی، فناوری های علمی، باستان شناسی، تبلیغات، سینما، اقتصاد، روانشناسی و زمین شناسی

صنعت: امروزه کمتر کارخانه پیشرفته ای وجود دارد که بخشی از خط تولید آن توسط برنامه های هوشمند بینایی ماشین کنترل نشود. خطای بسیار کم، سرعت زیاد، هزینه نگهداری بسیار پایین، عدم نیاز به حضور اپراتور ۲۴ ساعته و خیلی مزایای دیگر باعث شده که صنایع و کارخانه ها به سرعت به سمت پردازش تصویر و بینایی ماشین روی بیاورند

هواشناسی: از آنجایی که در علم هواشناسی تشخیص و پیش بینی آب و هوا اکثراً از طریق تصاویر هوایی و ماهواره ای انجام می گیرد، پردازش تصویر در این علم کاربرد زیادی دارد

شهرسازی: با مقایسه عکس های مختلف از سال های مختلف یک شهر می توان میزان گسترش و پیشرفت آن را مشاهده کردو...

علوم نظامی و امنیتی:پردازش تصویر بخصوص بینایی هوشمند، کاربردهای بسیاری را در علوم نظامی و امنیتی دارند و این کاربرد برای دولت اکثر کشورها بسیار مهم است. به عنوان مثال موشک هدایت شونده خودکاری وجود دارد که می تواند روی در یک ساختمان قفل کند و حتی می تواند به درز بین در و دیوار آن ساختمان که حساس ترین جای ساختمان است به راحتی نفوذ کند. این موشک به صورت اتوماتیک این قسمت را شناسایی کرده و به سمت آن حمله می کند در مسائل امنیتی هم کاربرد پردازش تصویر کاملاً در زندگی ما مشهود است. دوربین های که به صورت اتوماتیک از ماشین هایی که تخلف رانندگی انجام می دهند عکس برداری می کند.

فناوری های علمی: پردازش تصویر در افزایش سرعت پیشرفت های علمی تأثیر فوق العاده داشته است. اولین و مشخص ترین تأثیر آن را می توان در علم عکاسی یا هنر دید. شکار لحظه های شگفت آوری که در کسری از ثانیه اتفاق می افتد، بالا بردن وضوح عکس های گرفته شده و ایجاد افکت های خیره کننده، از دستاوردهای پردازش تصویر است.

سینما: اولین علمی که پردازش تصویر در آن مورد استفاده قرار گرفت، هنر و سینما بود که در آن یک کاراکتر انیمیشنی قادر است حرکات دست انسان را تقلید کند. امروزه این سیستم جهت ساخت فیلم ها و بازی های کامپیوتری مورد استفاده قرار می گیرد

پزشکی:جهت شبیه سازی اندازه گیری فواصل چشمی، دستگاه های رادیولوژی وتفسیر ان وپردازش تصویر در سیستم اندوسکوپی

مراحل اساسی پردازش تصویر:


1)گرفتن تصویربا اسکنرهای نوری یا دوربین

2)انجام مرحله پیش پردازش

3)تجزیه و تحلیل تصویر

4)خروجی پردازش

انواع پردازش تصویر

مرز مشخصی بین پردازش تصویر و بینایی ماشین نمی توان تعیین کرد؛با این حال پردازش تصویر را می توان به سه دسته کلی تقسیم نمود:

1) پردازش سطح پایین: شامل پردازش های ابتدایی همچون حذف نویز،فیلتر کردن تصویر، کنتراست و …

2) پردازش سطح میانی: ویژگی این پردازش این است که ورودی آن معمولا تصویر و خروجی آن صفاتی از اشیا

تصویر مانند لبه ها کانتورها و تشخیص اشیا است

3) پردازش سطح بالا: این پردازش شامل فهمیدن رابطه بین اشیا تشخیص داده شده استنباط و تفسیر صحنه و انجام

تفسیر و تشخیص هایی که سیستم بینایی انسان انجام می دهد .

عملیات اصلی درپردازش تصویر

1)تبدیلات هندسی مثل تغییر اندازه وچرخش

2)رنگ مثل تغییرات روشنایی

3)فشرده سازی تصویر

4)ناحیه بندی تصویر

5)انطباق تصویر

سوالی که شاید برایمان مطرح شود این است که هدف از پردازش تصویرچیست؟

1.تشدید تصویروبهبود

2.بازیابی تصویر

3.ارزیابی الگو

4.تشخیص تصویر

استفاده از نرم افزار متلب

الگوریتم‌های پردازش تصویر در متلب، مجموعه‌ای از توابع هستند که قابلیت‌های محیط محاسبات عددی متلب را گسترش می‌دهند. برای انجام پروژه متلب پردازش تصویر میتوان از متلب استفاده نمود. تولباکس پردازش تصویر در متلب مجموعه‌ای از «الگوریتم‌های مرجع استاندارد» را برای کاربردهای پردازش، تحلیل و نمایش بصری تصاویر و همچنین توسعه الگوریتم‌های پردازش تصویر در متلب فراهم می‌آورد. از الگوریتم‌های پردازش تصویر در متلب، می‌توان برای «بخش‌بندی تصاویر» بهبود تصاویر، «کاهش نویز» در تصاویر، «تبدیلات هندسی» «انطباق تصویر» و انجام عملیات «پردازش تصویر 3-بعدی»استفاده کرد. یک تصویر دیجیتال در تولباکس پردازش تصویر در متلب، در قالب یک تابع دو بعدی به شکل (F(x,yتعریف می‌شود. در این تابع، x و y مختصات مکانی هر نقطه را در تصویر نشان می‌دهند. همچنین، به دامنه مقداری تابع F، به ازاء هر جفت مختصات x و y، شدت تصویردران نقطه گفته میشود در صورتی که x ،y و دامنه مقداری تابع F، همگی مقادیر گسسته متناهی باشند، به تصویر مورد نظر، یک تصویر دیجیتال گفته می‌شود.

تکنیک‌های پیشرفته پردازش تصویر در متلب:

  • دقیق کردن و نمایان‌سازی تصاویر
  • حذف کردن نویز
  • تصحیح لکه‌ها و تار شدگی‌های موجود در تصویر
  • باینری کردن تصاویر
  • بخش‌بندی تصاویر و برچسب‌گذاری اشیاء موجود در آن‌ها

تشخیص الگودرپردازش تصویر

سوالی که به ذهن بشرمیاید این است که الگوچیست؟ یک الگو میتواند هر شی یا بخش موردنظر باشد که برای تشخیص و شناسایی لازم است مثل:یک پیکسل در تصویر یا یک کاراکترتایپ شده.

شناسایی الگو (تشخیص الگو) شاخه‌ای از مبحث یادگیری ماشینی است. می‌توان گفت تشخیص الگو، دریافت داده‌های خام و تصمیم‌گیری بر اساس دسته‌بندی داده‌ها است. روش‌های تشخیص الگو، الگوهای مورد نظر را از یک مجموعه داده‌ها با استفاده از دانش قبلی در مورد الگوها یا اطلاعات آماری داده‌ها، جداسازی می‌کند.

دراین مبحث درتصویر ورودی دنبال یک الگوی خاص با مشخصات تعریف شده هستیم به طور مثال 1-تشخیص یک کاراکتردرمتن 2-تشخیص حروف و اعداد در ناحیه خودرو 3-تشخیص جسم

روش عمومی درحوزه مکانی استفاده ازتابع هم بستگی است.ماکزیمم مقدار تابع همبستگی به معنی بیشترین تطابق یا شباهت میباشد.

یک سیستم شناسایی الگوی کامل متشکل از یک حسگر که مشاهداتی را که باید کلاسه بندی شوند را جمع اوری میکند یک مکانیزم استخراج ویژگی ها که که اطلاعات عددی یا سمبولیک را از مشاهدات استخراج میکند و یک نظام کلاسه بندی که وظیفه اصلی طبقه بندی یا توصیف الگوها را با تکیه بر ویژگی های استخراج شده عهده دار است .

پردازش متون ومفاهیم پایه ای

رایانه تنها یک ابزار است که ما میباید شیوه کارکردن به اوبیاموزیم و امکانات کار را برایش فراهم اوریم نرم افزار های مختلفی بدین منظور طراحی شدند که برای تشخیص و بازیایی حروف الفبا به کار میروند.

بطور کلی کاربردهای پردازش زبان طبیعی در زندگی روزمره ما، محیط‌های آموزشی، درمان و صنعت را می‌توان

به چند دسته، مطابق ذیل، تقسیم‌بندی نمود:

  • پردازش گفتار
  • پردازش تصویر
  • پردازش متن

ازکاربردهای پردازش گفتار میتوان دستیار شخصی، تبدیل گفتار به نوشتار،مترجم‌های صوتی نام بردوازکاربرد های پردازش متن میتوان به ترجمه ماشینی متن ،بهینه سازی موتورهای جستجو ،غنی‌سازی متن نام برد.در ادامه به بررسی کاربرد پردازش تصویرمیپردازیم.

کاربردهای پردازش تصویر

نویسه خوان نوری:تشخیص خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه.

مترجم‌های تصویری: که کار استخراج متن از درون تصویر و ترجمه آن به زبان دیگر را انجام می‌دهند

شرح تصاویر: توضیح عناصر و اتفاقات درون تصویر که معمولاً بوسیله تکنیک‌های یادگیری عمیق انجام می‌شود.

مثلاً: با دریافت یک تصویر خروجی می‌نویسد که «دو پرنده بر روی یک شاخه درخت نشسته‌اند»

خصوصیات متون فارسی

ﻣﺘﻮن ﻓﺎرﺳﯽ دارای ﺧﺼﻮﺻﯿﺎت ﻣﺘﻔﺎوﺗﯽ ﻧﺴﺒﺖ ﺑﻪ ﻣﺘﻮن ﻻﺗـﯿن ﻫﺴﺘﻨﺪ. ﺟﻬﺖ ﻧﻮﺷﺘﺎری اﯾﻦ ﺣﺮوف از ﺳﻤﺖ راﺳﺖ ﺑﻪ ﭼﭗ اﺳﺖ، در ﺣـﺎﻟﯽ ﮐﻪ اﻋﺪاد دراﯾﻦ زﺑﺎن از سمت چپ به راست نوشته میشوند . ﺑﯿﺸﺘﺮ ﺣﺮوف از ﺧﻄﻮط ﻣﻨﺤﻨﯽ ﺷﮑﻞ ﺗﺸﮑﯿﻞ ﻣﯽ ﺷﻮﻧﺪ و ﯾﺎ دارای ﺣﻠﻘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ اﻏﻠﺐ در ﺟﻬـﺖ ﻋﻘﺮﺑـﻪ ﻫـﺎی ﺳـﺎﻋﺖ ﺑﺴـﺘﻪ ﻣـﯽ ﺷﻮﻧﺪ. ﮐﻠﻤﺎت اﯾﻦ زﺑﺎن ﺑﻪ ﺻﻮرت ﺳﺮﻫﻢ ﻧﻮﺷﺘﻪ ﻣﯽ ﺷﻮﻧﺪ . اﯾﻦ ﺧﺼﻮﺻـﯿﺖ ﯾﮑﯽ از ﻣﺸﮑﻞ ﺳﺎزﺗﺮﯾﻦ ﻋﻮاﻣـﻞ در ﺷﻨﺎﺳـﺎﯾﯽ اﯾـﻦ ﺣـﺮوف اﺳـﺖ، زﯾـﺮا ﺟﺪاﺳﺎزی ﺣﺮوف ﺳﺮﻫﻢ ﺧﯿﻠﯽ ﻣﺸﮑﻞ اﺳﺖ اﯾﻦ ﻫﻤﺎن ﻣﺸﮑﻠﯽ اﺳﺖ ﮐﻪ در ﺷﻨﺎﺧﺖ ﻣﺘﻮن دﺳﺖ ﻧﻮﯾﺲ ﻻﺗﯿﻦ ﻫﻢ وﺟﻮد دارد. ﺑﯿﺸﺘﺮ ﺣﺮوف ﻓﺎرﺳﯽ دارای اﺷﮑﺎل ﻣﺘﻔﺎوت ﺑﺴﺘﻪ ﺑﻪ ﺟﺎﯾﮕﺎﻫﺸﺎن در ﮐﻠﻤﻪ ﻣﯽ ﺑﺎﺷﻨﺪ.ﺑﺴﯿﺎری از ﺣﺮوف ﻓﺎرﺳﯽ ﺷﺒﯿﻪ ﺑﻪ ﻫﻢ ﺑﻮده و ﺗﻔـﺎوت آﻧﻬـﺎ ﻓﻘـﻂ در ﺗﻌﺪاد و ﻣﮑﺎن ﻧﻘﻄﻪ هایشان است. در ﻣﻮرد ﺣﺮوف ﺳﺮﻫﻢ، ﻫﻤﭙﻮﺷﺎﻧﯽ ﻋﻤﻮدی ﺑﻌﻀﯽ از ﺣﺮوف ﻓﺎرﺳـﯽ ﻧﯿﺰ ﻣﺴﺄﻟﻪ ای اﺳﺖ ﮐﻪ ﺷﻨﺎﺧﺖ اﯾﻦ ﺣﺮوف را ﺑﺎ ﻣﺸﮑﻞ روﺑﺮو ﻣﯽ نماید . اﯾﻦ ﺧﺼﻮﺻﯿﺎت ﺑﺎﻋﺚ ﻣﯽ ﺷﻮد ﮐﻪ ﺑﺮای ﺑﺎزﺷﻨﺎﺳﯽ ﻣﺘﻮن ﻓﺎرﺳﯽ از روﺷﻬﺎﯾﯽ ﻣﺘﻔﺎوت ﺑﺎ روﺷﻬﺎی ﻣتﺪاوﻟﯽ ﮐﻪ ﺑﺮای ﺷﻨﺎﺳﺎﯾﯽ ﻣﺘﻮن ﻻﺗـﯿﻦ اﺳﺘﻔﺎده ﻣﯽ ﺷﻮﻧﺪ، اﺳﺘﻔﺎده ﻧﻤﺎﯾﯿﻢ.

ﯾﮏ ﺳﯿﺴﺘﻢ OCR ﻓﺎرﺳﯽ در ﺣﺎﻟﺖ ﮐﻠﯽ ﺑﺎﯾﺪ ﺑﺘﻮاﻧـﺪ ﺻـﻔﺤﺎت را اﺳﮑﻦ ﮐﺮده، ﺗﺼﺎوﯾﺮ ﻗﺴﻤﺘﻬﺎی ﻣﺮﺑـﻮط ﺑـﻪ ﻣـﺘﻦ را از ﺗﺼـﻮﯾﺮ ﺻـﻔﺤﻪ اﺳﮑﻦ ﺷﺪه اﺳﺘﺨﺮاج و ﺗﺼﻮﯾﺮ ﻣﺘﻦ را ﺑﻪ ﺗﺼﺎوﯾﺮ ﺣـﺮوف ﺗﻔﮑﯿـﮏ ﻧﻤﺎﯾـد آﻧﮕﺎه ﻫﺮ ﺣﺮف را ﺷﻨﺎﺳﺎیی و ﺳـﭙ ﺲ ﺣﺮوف ﺷﻨﺎﺳﺎﯾﯽ ﺷـﺪه را ﺑـﻪ ﻧﺤـو ﻣﻨﺎﺳـﺒﯽ ﮐﻨـﺎرﻫﻢﭼﯿـﺪه و ﺧﺮوﺟـﯽ ﻣﻄﻠﻮب را اراﺋﻪ دﻫﺪ. ﺟﺪا ﺳﺎزی ﺣﺮوف پیوسته ﮐـﺎرﺑﺴـﯿﺎرﻣﺸـﮑﻠﯽ اﺳـﺖ و ﮔﺮﭼـﻪ پیشرفتهایی دراﯾﻦ زﻣﯿﻨﻪ اﻧﺠﺎم ﺷﺪه ،ﻫﻨﻮز ﺳﯿﺴﺘﻤﯽ ﮐﻪ ﺑﺘﻮاﻧﺪ ﺑﺎ دﻗـﺖ ﻗﺎﺑﻞ اﻃﻤﯿﻨﺎن اﯾﻦ ﻋﻤﻠﯿﺎت را اﻧﺠﺎم دﻫﺪ اراﺋﻪ ﻧﺸﺪه اﺳﺖ . ﻟﺬا در ﮐﺎرﻫﺎﯾﯽ ﮐــﻪ اﺳــﺘﻔﺎده از OCR اﻟﺰاﻣــﯽ اﺳــﺖ متون را به صورت دنباله ای از حروف مجزا مینویسیم.

ورودی اﯾﻦ ﺳﯿﺴﺘﻢ، ﻣﺠﻤﻮﻋﻪ ای از ﺗﺼﺎوﯾﺮ اﺳﺖ ﮐﻪ ﻫـﺮ ﮐـﺪام ﯾﮏ ﺣﺮف دﺳﺖ ﻧﻮﯾﺲ در ﺑﺮدارد .اﯾﻦ تصاویر پس ازپردازش مختصری ﺗﺒﺪﯾﻞ ﺑﻪ ﺗﺼﺎوﯾﺮ ﺳﯿﺎه و ﺳـﻔﯿﺪ و ﺗﻐﯿﯿـﺮ اﻧـﺪازه ﺑـﺮای آﻣـﻮزش ﺷـﺒﮑﻪ ﻋﺼﺒﯽ ﺑﮑﺎر ﻣﯽ روﻧﺪ .ﭼنین ﭘﺮدازﺷﯽ ﺑﺮای ﺗﺸﺨﯿﺺ ﺣﺮوف ﺗﺎﯾﭙﯽ ﮐﺎﻓﯽ اﺳﺖ وﻟﯽ در ﻣﻮرد ﺣﺮوف دﺳﺖ ﻧﻮﯾﺲ ﺧﻮاﻫﯿﻢ دﯾﺪ ﮐـﻪ ﺷـﺒﮑﻪ ﻋﻠﯿـﺮﻏﻢ ﺗﻼﺷﻬﺎ و ﺳﺎده ﺳﺎزﯾﻬﺎی اﻧﺠﺎم ﺷﺪه، ﻫﻤﮕﺮا ﻧﻤـﯽ ﺷـﻮد. ﻧﺘﯿﺠـﻪ ﺧـﻮاﻫﯿﻢ ﮔﺮﻓﺖ که در ﻣﻮرد ﺣﺮوف دﺳﺖ ﻧﻮﯾﺲ، ﺑﺎﯾﺪ ﭘﺮدازشﭘیچیده تری روی ﺗﺼﺎوﯾﺮ اﻧﺠﺎم ﺷﻮد.

OCR چیست؟


به معنای شناسایی حروف با کمک ابزار نوری است و یک شاخه ازعلم پردازش سیگنال را تشکیل میدهد.شامل تصویر برداری از روی کاغذ و استخراج کلمات از ان است ﻣﺘﻦ ﺑﻪ ﺻﻮرت ﻣﺴﺘﻘﯿﻢ در ﺗﺼﻮﯾﺮ ﻗﺎﺑﻞ دﺳﺘﺮﺳـﯽ ﻧﯿﺴـت زﯾـﺮا ﺣﺮوف در ﯾﮏ ﻣﺘﻦ اﺳﮑﻦ ﺷﺪه ازﻣﺠﻤﻮﻋﻪ ای از ﻧﻘﺎط ﺗﺸﮑﯿﻞ ﻣﯽ ﺷـﻮد ﮐﻪ در ﮐﻨﺎرﻫﻢ ﻗﺮار ﮔﺮﻓﺘﻦ اﯾﻦ ﻧﻘﺎط ﻣﻄﺎﺑﻖ اﻟﮕﻮﻫﺎی ﻣﻌﯿﻦ، ﺗﺼﻮﯾﺮﺣﺮوف ﻣﺨﺘﻠﻒ را ﻣﯽ ﺳﺎزد.

تاریخچه OCR

ﻣﺒﺤﺚ ﺑﺎزﺷﻨﺎﺳﯽ ﻣﺘﻮن، ﻫﻤﺎﻧﻨـﺪ ﻣﺒﺤـﺚ ﺗﺸـﺨﯿﺺ ﺻـﺤﺒﺖ از اواﯾﻞ ﻇﻬﻮر ﻣﺒﺤﺚ ﺷﻨﺎﺳﺎﯾﯽ اﻟﮕﻮ ﻣﻄـﺮح ﺑـﻮد . در اﺑﺘـﺪا ﺷﻨﺎﺳـﺎﯾﯽ آﻧﻬـﺎ آﺳﺎن ﺑﻪ ﻧﻈﺮ ﻣﯽ رﺳﯿﺪ وﻟﯽ در ﻋﻤﻞ ﺑﺮ ﺧـﻼف اﻧﺘﻈـﺎر ﺑﻌـﺪ از ﯾﮑﺴـﺮی ﭘﯿﺸﺮﻓﺖ ﮐﻮﭼﮏ، اﯾـﻦ ﻣﺴـﺄﻟﻪ ﺑﺎ ﻣﺸـﮑﻼت ﺑﺰرﮔـﯽ روﺑـﺮو ﺷـﺪ و ﺗﻮﺟـﻪ ﻣﺤﻘﻘﯿﻦ ﺑﻪ ﺳﻤﺖ ﺳﺎﯾﺮ زﻣﯿﻨﻪ ﻫـﺎ ی ﺷـﻨﺎﺧﺖ اﻟﮕـﻮ ﻣﻌﻄـﻮف ﮔﺸـﺖ.

ﺑـﺎ ﭘﯿﺪاﯾﺶ وﺳﺎﯾﻞ ارﺗﺒﺎط ﺟﻤﻌﯽ اﻟﮑﺘﺮوﻧﯿﮑﯽ ﻧﯿﺎز ﺷﺪﯾﺪی ، ﺑﻪ ﺳﯿﺴﺘﻤﻬﺎﯾﯽ اﺣﺴﺎس ﺷﺪه اﺳﺖ ﻣﯽ ﺷـﺪ ﮐـﻪ ﺑﺘﻮاﻧﻨـﺪ ﺑـﺎ دﻗـﺖ و ﺳـﺮﻋﺖ، اﻃﻼﻋـﺎت ﻧﻮﺷﺘﺎری ﻧﻤﺎﯾﻨﺪ ﻣﻮﺟﻮد را ﺧﻮاﻧﺪه و ذﺧﯿﺮه نمایند در سال 1929درالمان و درسال 1993در امریکا ابتداعاتی در این زمینه ثبت نمودند این ها اولین اﯾﺪه ﻫﺎی ﺷﻨﺎﺳﺎﯾﯽ ﺣﺮوف ﻫﺴﺘﻨﺪ . اﯾﻦ روش، ﺗﻄﺒﯿﻖ اﻟﮕﻮ ﻧﺎم دارد و ﺑـﻪ اﯾﻦ ﺻﻮرت ﮐﺎر می ﮐﻨﺪ ﮐﻪ ﺑﻪ ﻫﺮ ﺣﺮف، ﻧﻮر ﺗﺎﺑﯿﺪه ﻣﯽ ﺷـﻮد و ﻧـﻮر ﺑـﺎز ﺗﺎﺑﯿﺪه ﺷﺪه از ﺣﺮوف، از ﻗﺎﻟﺐ ﻫﺎ ی ﻣﮑﺎﻧﯿﮑﯽ ﻋﺒﻮر داده ﻣﯽ ﺷﻮد.

ﻫﺮﮔـﺎه ﮐﻪ ﻧﻮری ﻣ از ﻗﺎﻟﺐ ﻋﺒﻮر ﻧﮑﺮد، ﺣﺮف ﺗﺸﺨﯿﺺ داده میشود در ﻋﻤﻞ ﺗﺎ زﻣﺎن ﺑﻪ ﻋﺮﺻﻪ آﻣـﺪن کامپیوترﯾﻌﻨـﯽ ﺳـﺎل1950ﺳﯿﺴﺘﻢ ﻣﻄﻠﻮﺑﯽ ﺳﺎﺧﺘﻪ ﻧﺸﺪ اولین کامپیوتر تجاری در امریکا شروع به کار کرد در این زمان بود که این ایده به عنوان ﯾﮏ ﭘﺪﯾﺪه ﻗﺎﺑﻞ ﭘﯿﺎده ﺳﺎزی ﭘﺬﯾﺮﻓﺘﻪ ﺷﺪ . از اﯾﻦ زﻣـﺎن ﺑﻪ ﺑﻌﺪ ﺗﺤﻘﯿﻘﺎت ﮔﺴﺘﺮده ا ی ﺑﺮ روی اﯾﻦ ﺗﮑﻨﻮﻟﻮژی اﻧﺠﺎم ﮔﺮﻓﺘﻪ اﺳـﺖ و در ﻧﺘﯿﺠﻪ ﺳﯿﺴﺘﻤﻬﺎ ی ﺗﺠﺎری ﻋﺮﺿﻪ ﺷﺪه اﻧﺪ ﮐﻪ دارای ﻗﺎﺑﻠﯿﺘﻬﺎی ﺧـﻮﺑﯽ ﻫﺴﺘﻨﺪ .ﺳﯿﺴﺘﻤﻬﺎی ﺗﺠﺎری ﻋﺮﺿﻪ ﺷﺪه را ﻣﯽ ﺗﻮاﻧﺪ ﺑﻪ ﺳﻪ ﻧﺴﻞ ﺗﻘﺴـﯿﻢ ﺑﻨﺪیﻧﻤﻮد.سیستم های نسل اول فقط ﻗﺎﺑﻠﯿــﺖ ﺗﺸــﺨﯿﺺ ﮐﺎراﮐﺘﺮﻫﺎی ﺧـﺎص ﺑـﺎ اﻧـﺪازه و ﻓﻮﻧـﺖ ﻣﺸﺨﺼـﯽ را داﺷـﺘﻨﺪ در آﻧﻬـﺎ از روﺷﻬﺎﯾﯽ اﺳﺘﻔﺎده ﺷﺪه ﺑﻮد ﮐﻪ ﻧﺴﺒﺖ ﺑﻪ ﺗﻐﯿﯿﺮ ﺟﺎی ﮐﺎراﮐﺘﺮﻫﺎ، اﻧـﺪازه و دوران آﻧﻬﺎ ﻓﻮق اﻟﻌﺎده ﺣﺴﺎس ﺑﻮدﻧد.سیستم های نسل دوم فقط ﺑﻌﻀﯽ از ﮐﺎراﮐﺘﺮﻫﺎی دﺳﺖ ﻧﻮﯾﺲ ﻣﺎﻧﻨﺪ اعداد را تشخیص دهند.

سیستم های نسل سوم ﺑﺎﻫﺪف ﺗﺸﺨﯿﺺ ﮐﺎراﮐﺘﺮﻫﺎیی ﺑﺎ ﮐﯿﻔﯿﺖ ﭼﺎپ ﭘـﺎﯾﯿﻦ و ﻫﻤﭽﻨـﯿﻦ ﻣﺘـﻮن دﺳﺖ ﻧﻮﯾﺲ ﻻﺗﯿﻦ ﺳﺎﺧﺘﻪ ﺷﺪﻧد امروزه این سیستم ها ﻗﺎدر ﺑﻪ ﺗﺸﺨﯿﺺ دﻗﯿﻖ ﮐﺎراﮐﺘﺮﻫﺎی ﺗﺎﯾﭙﯽ ﻻﺗـﯿﻦ ﺑـﺎ اﻧﻮاع ﻓﻮﻧﺘﻬﺎ و در اﻧﺪازه ﻫﺎ ی ﻣﺘﻔـﺎوت ﻫﺴـﺘﻨﺪ ولی هنوز در ﻣﻮرد ﺗﺸﺨﯿﺺ ﻣﺘﻮن دﺳﺖ ﻧﻮﯾﺲ ﻻﺗـﯿﻦ و ﯾـﺎ ﻓﻮﻧﺘﻬـﺎﯾﯽ ﮐـﻪ در آﻧﻬـﺎ از ﺧﻄﻮط ﺧﻤﯿﺪه اﺳﺘﻔﺎده میﺷﻮد ﻣﺜﻞ ﻓﺎرﺳﯽ وعربی ﻣﺸﮑﻼت زﯾـﺎدی وﺟﻮد دارد روﺷﻬﺎی ﺑﺴﯿﺎری ﺗﺎ ﺑﻪ اﻣـﺮوز ﺑـﺮای ﺷﻨﺎﺳـﺎﯾﯽ ﻣﺘـﻮن ﻓﺎرﺳـﯽ و ﻋﺮﺑﯽ ﺑﻪ ﮐﺎر رﻓﺘﻪ اند . ﺑﻪ دﻧﺒـﺎل آن ﺳﯿﺴـﺘم دﯾﮕﺮی ﺑﺮای ﺗﺸﺨﯿﺺ ﮐﻠﻤﺎت ﺗﺎﯾﭗ ﺷﺪه ﻋﺮﺑﯽ ﭘﯿﺸﻨﻬﺎد ﺷـﺪ ﮐـﻪ در آن اﺑﺘﺪا ﮐﻠﻤﺎت ﺑﻪ ﺣﺮوف ﺗفکیک ﺷﺪه وﺳﭙﺲ ﺗﻮﺻﯿﻒ ﮐﻨﻨﺪه ﻫـﺎی ﻓﻮرﯾـﻪ دوره ﺧﺎرﺟﯽ ﺣﺮوف، ﻣﺒﻨﺎی ﺷﻨﺎﺳﺎﯾﯽ آﻧﻬﺎ ﻗﺮار می گرفتند . ﺑـﻪ ﻣـﻮازات آن دو روش ﺳﺎﺧﺘﺎری ﺷﺪند ﯾﮑﯽ ﻣﺒﺘﻨﯽ ﺑﺮ اﯾﺪه دﻧﺒﺎل ﮐـﺮدن ﮐـﺎﻧﺘﻮر ﺑـﺮای ﺷﻨﺎﺳـﺎﯾﯽ ﺣـﺮوف ﻣﺠﺰایﻋﺮﺑﯽ و دﯾﮕﺮی ﺑﺮ اﺳﺎس اﺳﺘﻔﺎده ازمحل های تقاطع و اﻧﺸـﻌﺎب ﭘﺎره ﺧﻄﻬﺎ ﺑﺮا ی ﺷﮑﺴﺘﻦ ﮐﻠﻤﺎت ﺑﻪ زﯾﺮ ﺣﺮﻓﻬﺎ و دﺳـﺘﻪ ﺑﻨـﺪی آﻧﻬـﺎ ﺑـﻪ ﮐﻤﮏ وﯾﮋﮔﯿﻬﺎیﻫﻨﺪسی توپولوژیکی

اشنایی با OCR

ﭘﺮدازش و آﻧﺎﻟﯿﺰ ﺗﺼﺎوﯾﺮ ﻣﯽﺗﻮاﻧﺪ ﺑﻪ ﻋﻨﻮان ﯾﮏ ﺳﺎﺧﺘﺎر ﮐﺎرﺑﺮدی و ﺗﮑﻨﯿﮑﯽ ﺟﻬﺖ ﺗﺴﺨﯿﺮﮐﺮدن، ﺗﺼﺤﯿﺢ ﮐﺮدن، زﯾﺎد ﮐﺮدن و ﺗﻐﯿﯿﺮ ﺷـﮑﻞ دادن ﺗﺼﺎوﯾﺮی ﮐﻪ ﻣﺸﺎﻫﺪه ﻣی شود تعریف کرد درهنگام استفاده از این تکنولوژی ﻧـﺮم اﻓـﺰار ﻣﺮﺑﻮﻃـﻪ ، ﺗﺼﻮﯾﺮ را ﺗﺠﺰﯾﻪ وﺗﺤﻠﯿﻞ ﻣﯽ ﻧﻤﺎﯾﺪ و ﺷﮑﻞ ﺣﺮوف را ﺑﺮ اساس ﭘﺮاﮐﻨﺪﮔﯽ ﻧﻘﺎط در ﺗﺼﻮﯾﺮ، ﺷﻨﺎﺳﺎﯾﯽ ﻣﯽ ﮐﻨﺪ . ﻣﺘﻮن ﻣـﯽ ﺗﻮاﻧﻨـﺪ ﺣﺘﯽ دارای ﻋﮑـﺲ ﻫﻢ ﺑﺎﺷﻨﺪ ﮐﻪ ﺳﯿﺴﺘﻢ آﻧﻬﺎ را ﺗﺸﺨﯿﺺ داده، ﮐﻨﺎر ﻣﯽ ﮔﺬارد. ﯾﮏ ﺳﯿﺴﺘم

OCR ﺑﻪ ﻣﺎ اﯾﻦ اﻣﮑﺎن را ﻣﯽ دﻫﺪ ﮐﻪ ﯾﮏ ﮐﺘـﺎب و ﯾﺎ ﯾﮏ ﻣﻘﺎﻟﻪ را ﻣﺴﺘﻘﯿﻤﺎ ﺑﻪ ﯾﮏ ﻓﺎﯾﻞ اﻟﮑﺘﺮوﻧﯿﮑﯽ ﺗﺒﺪﯾﻞ ﻧﻤﺎﯾﯿﻢ و آن را ﺑﺎ ﮐﻤﮏ یک ﭘﺮدا زﺷﮕﺮ ﺗﻐﯿﯿﺮ دﻫﯿﻢ . اﺳﺘﻔﺎده از ﺳﯿﺴـﺘﻢ OCR ﯾـﮏ راه ﮐﺎرآﻣﺪ ﺑﺮای ﺗﺒﺪﯾﻞ ﻣﺘﻮن ﺑﻪ ﻓﺎﯾﻠﻬﺎی داده اﺳﺖ ﮐﻪ ﻣﻤﮑـﻦ اﺳـﺖ ﺗﺎﯾـﭗ ﮐﺮدن آﻧﻬﺎ زﻣﺎن زﯾﺎدی ﺑﻪ ﻃﻮل ﺑﯿﺎﻧﺠﺎﻣﺪ. اﯾﻦ ﺗﮑﻨﻮﻟﻮژی ﻣﺪﺗﻬﺎﺳﺖ ﮐﻪ ﺑﻪ وﺳﯿﻠﻪ ﮐﺘﺎﺑﺨﺎﻧﻪ ﻫﺎ وﺳﺎزﻣﺎن ﻫـﺎی دوﻟﺘـﯽ ﺑـﺮای دﺳـﺘﯿﺎﺑﯽ اﻟﮑﺘﺮوﻧیکی ﺳﺮﯾﻊ ﺑﻪ ﻣﺪارک ﺣﺠﯿﻢ ﺑﻪ ﮐﺎر ﻣﯽ رود و از ﻟﺤﺎظ ﺳﺮﻋﺖ و ﻫﺰﯾﻨـﻪ روش ﻣﻨﺎﺳﺒﯽ اﺳﺖ OCR از ﻣﻌﺪود زﻣﯿﻨﻪ ﻫﺎی ﻫﻮش ﻣﺼﻨﻮﻋﯽ اﺳﺖ ﮐﻪ ﻣﯽ ﺗﻮان در ﻋﻤﻞ ﺑﻪ آن ﺗﮑﯿﻪ ﮐﺮد .

از ﻣﺘﺪاول ﺗﺮﯾﻦ ﮐﺎرﺑﺮدﻫﺎی اﯾﻦ ﺗﮑﻨﻮﻟﻮژی ﻣﯽ ﺗﻮان ﺟـﺪاﮐﺮدن ﻧﺎﻣﻪ ﻫﺎ در ﻣﺮاﮐﺰ ﭘﺴﺖ، دﺳﺘﻪ ﺑﻨﺪی ﭼﮑﻬﺎ ﺑﺎﻧﮏ، ﺗﺒﺪﯾﻞ ﻣﺘﻦ ﺑﻪ ﺻﺪا ﺑﺮای اﺳﺘﻔﺎده ﻧﺎﺑﯿﻨﺎﯾان، اﻣﮑﺎن دﺳﺘﺮﺳﯽ ﺳﺮﯾﻊ ﺑﻪ ﺑﺎﯾﮕﺎﻧﯿﻬﺎی ﻋﻈﯿﻢ و ﺗﺒﺪﯾﻞ ﮐﺘﺎﺑﻬﺎی ﻗﺪﯾﻤﯽ ﮐﺘﺎﺑﺨﺎﻧﻪ ﻫﺎی ﺑـﻪ ﻓﺮﻣﺘـﯽ ﻣﻨﺎﺳﺐ ﺑﺮای ذﺧﯿﺮه در ﮐﺎﻣﯿﯿﻮﺗﺮ را ﻧﺎم ﺑﺮد. ﻫﺪف از اﯾﻦ ﻋﻤﻠﯿﺎت زﯾﺎد ﮐﺮدن ﮐﯿﻔﯿﺖ ﻧﺴﺒﯽ اﻃﻼﻋﺎﺗﯽ اﺳـﺖ که بعدا اﺳﺘﺨﺮاج ﺧﻮاﻫﺪ ﺷﺪ ﮐﻪ ﺑﻌﺪا ﺗﻐﯿﯿﺮ ﺷﮑﻞ در ﺣﻘﯿﻘﺖ ﻋﻤﻠﯿﺎﺗﯽ اﺳﺖ ﮐـﻪ ﺑﺮ روی ﺗﺼﺎوﯾﺮ ورو دی اﻧﺠﺎم ﻣـﯽ ﮔﯿـﺮد ﺗـﺎ ﺧﺮوﺟـﯽ ﺑـﻪ ﯾـﮏ ﻋـﺪد ﮐـﻪ اﻃﻼﻋﺎﺗﯽ از ﺗﺼﻮﯾﺮ اﺳـﺖ ﺑﺪﻫـﺪ .ﺗﮑﻨﯿﮑﻬـﺎی ﻣﺘﻔـﺎوت ﺗﻮﻟﯿـﺪ ﺗﺼـﺎوﯾﺮ در دﺳﺘﺮس ﻣﯽ ﺑﺎﺷﺪ با وجود این تکنیکهای پردازش اطلاعات به عملیات ﮔﺴﺘﺮده ای اﻃﻼق ﻣﯽ ﺷـﻮد ﮐـﻪ ﻣـﯽ ﺗﻮاﻧـﺪ ﺑـﺮ روی اﺷـﮑﺎل و ﻓﺮﻣﺘﻬـﺎی ﻣﺨﺘﻠﻒ ﺗﺼﺎوﯾﺮ ﻋﻤﻞ ﮐﻨﺪ. اﺑﺘــﺪا ﺗﺼــﺎوﯾﺮ ﺟﻬــﺖ از بین بردن اﻋﻮﺟــﺎﺟﯽ ﮐــﻪ در مرحله جمع

اوری ﺗﺼﺎوﯾﺮ اﯾﺠﺎد ﻣﯽ ﺷﻮﻧﺪ ﺗﺸﺨﯿﺺ ﻣﯽ ﮔﺮدﻧﺪ و ﺗﺼـﺤﯿﺢ ﺳـﭙﺲ ﭘﺮدازش ﺗﺼﺎوﯾﺮ ﯾﮏ ﻋﻤﻠﯿﺎﺗﯽ اﺳﺖ ﮐﻪ ﯾﮏ ﺳﺮی ﮐﺎرﺑﺮدﻫـﺎ را ارﺟﺤﯿـﺖ ﻣﯽ ﺑﺨﺸﺪ . ﺗﮑﻨﯿﮑﻬﺎی ﺟﺪﯾﺪ ﯾﺎ ﭘﺮوﺳﻪ ﻫﺎی ﺟﺪﯾﺪ ﮐﻪ ﺟﻬـﺖ ﺣـﻞ ﻣﺴـﺎﺋﻞ ﻣﺸﺨﺺ وﺟﻮد دارﻧﺪ از ﻣﯿﺎن ﮐﺎرﺑﺮدﻫﺎی ﻣﺨﺘﻠﻒ اﻧﺘﺨﺎب ﻣﯽ ﺷﻮﻧﺪ. ﭘﺮدازش ﺗﺼﺎوﯾﺮ در ﺳﻄﻮح ﻣﺨﺘﻠﻒ اﻧﺠﻤـﻦ ﻫـﺎی ﻣـﺪرن اﻧﺠـﺎم ﻣﯽ ﮔﯿﺮد

روﺷﻬﺎ و ﺗﮑﻨﯿﮑﻬﺎ در ﻫﻤﻪ اﯾﻦ ﺳﻄﻮح ﺑﻪ ﯾﮏ ﺷﮑﻞ ﻣـﯽ ﺑﺎﺷـﺪ و روﺷﻬﺎﯾﯽ ﮐﻪ در ﻣﻘﻮﻟﻪ ﻣﺮاﻗﺒﺖ ﺳﻼﻣﺘﯽ اﻧﺠﺎم ﻣﯽ ﮔﯿﺮﻧﺪ از ﺳﺎﯾﺮ روﺷـﻬﺎی ﭘﺮدازش ﺗﺼﺎوﯾﺮ ﮐﻪ در ﻋﻠﻮم ﻣﺨﺘﻠﻒ و ﺻﻨﻌﺖ اﻧﺠـﺎم ﻣـﯽ ﮔﯿـﺮد اﻗﺘﺒـﺎس ﻣﯽ ﺷﻮﻧﺪ.

مراحل OCR

  • سیستم های بازشناسی حروف
  • اسکن کردن صفحات
  • اﺳﺘﺨﺮاج نواحی ﺷﺎﻣﻞ ﻣﺘﻦ و ﺗﻔﮑﯿﮏ متن به حروف
  • شناسایی حروف
  • ارایه نتایج

توضیحات مربوط به سیستم های بازشناسی حروف همان تاریخچه ocr میباشد که برای جلوگیری از تکرار مطالب به بررسی مورد های بعدی میپردازیم.

اسکن کردن صفحات: اﺳﮑﻦ ﮐﺮدن، اوﻟﯿﻦ ﻣﺮﺣﻠﻪ ﮐﺎر ﯾﮏ ﺳﯿﺴﺘﻢ ocrاﺳـﺖ. ﯾـﮏ ﭘﺮﺗﻮ ﻧﻮر ﺑﻪ ﺻﻔﺤﻪ ﻣﻮرد ﻧﻈﺮ ﺗﺎﺑﯿﺪه ﻣﯽ ﺷﻮد . ﺑـﺎ ﺣﺮﮐـﺖ اﯾـﻦ ﭘﺮﺗـﻮ روی ﺻﻔﺤﻪ و ﺑﺎ ﺗﻐﯿﯿﺮ ﻣﻘﺪار ﺳﯿﺎهی و ﯾﺎ رﻧﮓ در اﺳـﮑﻨﺮﻫﺎی رﻧﮕـﯽ ﺷـﺪت ﻧﻮر ﺑﺎزﺗﺎﺑﯿﺪه ﺷﺪه ﺗﻐﯿﯿﺮ ﻣﯽ ﮐﻨﺪ . ﻧﻮر ﺑﺎزﺗﺎﺑﯿﺪه ﺷﺪه ﺑﻪ آراﯾﻪ ای ازﺳـﻠﻮل ﻫﺎی ﻓﺘﻮاﻟﮑﺘﺮدﯾﮏ ﺑﺮﺧﻮرد ﮐﺮده و ﺑﻪ اﯾﻦ ﺗﺮﺗﯿﺐ، ﯾﮏ ﻓﺎﯾـﻞ ﺗﺼـﻮﯾﺮی ا ز ﺻﻔﺤﻪ اﺳﮑﻦ ﺷﺪه ﺑﺪﺳﺖ می آﯾﺪ . از آﻧﺠﺎﯾﯽ ﮐﻪ ﺑﺎ دﯾﺪن اﯾﻦ ﺗﺼﺎوﯾﺮ ﻣﯽ ﺗﻮاﻧﯿﻢ ﻣﺤﺘﻮﯾﺎت ﺻﻔﺤﻪ را درﯾﺎﺑﯿﻢ، ﻣﻤﮑﻦ اﺳﺖ اﯾﻦ ﺳﻮال ﯾﯿﺶ آﯾﺪ ﮐـﻪ ﭼﺮا ﺑﺎﯾﺪ زﻣﺎن وﻫﺰﯾﻨﻪ ﺗﺒﺪﯾﻞ ﺗﺼﻮﯾﺮﺑﻪ ﻣﺘﻦ را ﺗﻘﺒﻞ ﮐﻨﯿﻢ؟ در ﭘﺎﺳﺦ ﺑﺎﯾﺪ ﮔﻔﺖ ﺣﺠﻢ ﻓﺎﯾﻠﻬﺎی ﺗﺼﻮﯾﺮی ﺑﺴﯿﺎر ﺑﯿﺸﺘﺮ ازﻓﺎﯾﻠﻬﺎی ﻣﺘﻦ اﺳﺖ، ﺣﺘﯽ اﮔﺮ از روﺷﻬﺎی ﻓﺸﺮده ﺳﺎزی استفاده کنیم ﺗﻐﯿﯿﺮ در ﻧﺤﻮه ﻧﻤﺎﯾﺶ ﻓﺎﯾﻠﻬـﺎی ﺗﺼـﻮﯾﺮی ﻣﺸـﮑﻞ و ﯾـﺎ ﻋﻤـﻼ" ﻏﯿـﺮ ﻣﻤﮑﻦ اﺳﺖ، ﻣﺜﻼ " ﺗﻐﯿﯿﺮ ﻓﻮﻧﺖ، در ﺻﻮرت اﻣﮑﺎن ﺑﺴﯿﺎر ﻣﺸـﮑﻞ ﺧﻮاﻫـﺪ ﺑﻮد و ﯾﺎ رﯾﺰ و درﺷﺖ ﮐﺮدن ﺗﺼﻮﯾﺮ می ﺗﻮاﻧـﺪ ﺑـﻪ ﻧﺎﺧﻮاﻧـﺎ ﺷـﺪن حروف

ﺑﯿﺎﻧﺠﺎﻣﺪ ﺗﺒﺪﯾﻞ ﺗﺼﻮﯾﺮ ﺑﻪ اﺷﮑﺎل دﯾﮕﺮ اراﺋﻪ، ﻣﺜﻼ" ﺧﻮاﻧﺪ ﻣﺘﻦ ﺑﺮای ﻧﺎﺑﯿﻨﺎﯾـﺎن، ﺑﺴﯿﺎر ﻣﺸﮑﻞ اﺳﺖ اﻣﮑﺎن ﺟﺴـﺘﺠﻮی ﻋﺒـﺎرﺗﯽ ﺧـﺎص و ﯾـﺎ ﻣﻘﺎﯾﺴـﻪ ﺑﺨﺸـﻬﺎﯾﯽ از ﻣـﺘﻦ ﺗﺼﻮﯾﺮی ﻋﻤﻼ ﺑﺎ ﻣﺘﻮن دﯾﮕﺮ " ﻧﺪارد وﺟﻮد ﻣﺠﻤﻮﻋﻪ ﻋﻠﺘﻬﺎی ﺑﺎﻻ باعث ﺷﺪه ﺗﺎ ﺗﻼﺷﻬﺎی ﺑﺴﯿﺎری ﺑﺮای ﺗﺒﺪﯾﻞ ﺗﺼﺎوﯾﺮ ﺑﻪ ﻣﺘﻦ ﺻﻮرت ﮔﯿـﺮد . روﺷـﻬﺎی دﯾﮕـﺮی از ﺟﻤﻠـﻪ اﺳـﺘﻔﺎده از دورﺑـﯿﻦ ، دﯾﺠﯿﺘﺎل، ﻧﯿﺰ ﺑـﺮا ی اﯾﺠـﺎد ﻓﺎﯾﻠﻬـﺎی ﺗﺼـﻮﯾﺮی وﺟـﻮد دارد . اﯾـﻦ روﺷـﻬﺎ ﻣﻌﻤﻮﻻ" در زﻣﯿﻨﻪ ﻫﺎی دﯾﮕﺮ ﺗﺸﺨﯿﺺ اﻟﮕﻮ ﻣﺜﻞ ﺗﺸﺨﯿﺺﭼﻬﺮه ﺑﮑـﺎر ﻣﯽروﻧد در ﻣﻮرد ﺗﺒﺪﯾﻞ ﻣﺘﻮن ﮐﺘﺎﺑﻬﺎ و ﺳﺎﯾﺮ ﻧﻮﺷـﺘﻪ ﻫـﺎ، اﺳـﮑﻦ ﮐـﺮدن ﻣﻨﺎﺳﺐ ﺗﺮﯾﻦ روش است

استخراج نواحی شامل متن و تفکیک متن به حروف: ﯾﮏ ﻓﺎﯾﻞ ﺗﺼﻮﯾری اﺳﮑﻦ ﺷﺪه، ﻓﻘﻂ ﺷـﺎﻣﻞ ﻣـﺘﻦ ﻧﯿﺴـﺖ ﺑﻠﮑـﻪ ﻣﻤﮑﻦ اﺳﺖ ﺷﺎﻣﻞ ﺗﺼﻮﯾﺮ اﺷﺨﺎص و ﻣﻨﺎﻇﺮ، ﻧﻤﻮدار و ﺳﺎﯾﺮ ﺗﺼـﺎوﯾﺮ ﻏﯿـﺮ متنی نیز میباشد این سیستم باید بتواند

نواحی شامل متن را شناسایی و استخراج کند اﮔﺮ ﭼﯿﺪﻣﺎن ﺻﻔﺤﻪ اﺳﮑﻦ شده مشخص باشد اﯾﻦ ﮐﺎر ﺑﺎ روﺷـﯽ ﺳـﺎده

ﺑﺎ ﻗﺎﺑﻠﯿﺖ اﻃﻤﯿﻨﺎن ﺑـﺎﻻ اﻣﮑـﺎن ﭘـﺬﯾﺮ اﺳـت. اﻣﺎ اﮔﺮ ﭼﯿﺪﻣﺎن ﺻﻔﺤﻪ ﻣﺸﺨﺺ نباشد مثل صفحات کتاب ﺑﺎﯾﺪ از

روﺷﻬﺎی ﭘﯿﭽﯿﺪه ﺗﺮی ﺑﻬﺮه ﮔﺮﻓﺖ ﮐﻪ ﺑﺘﻮاﻧﻨﺪ ﺑﺮ اﺳﺎس ﺗﻔﺎوﺗﻬﺎی ﺗﺼـﺎوﯾﺮ ﻣﺘﻨﯽ ﺑﺎ ﺗﺼﺎوﯾﺮ اﺷﺨﺎص و ﻣﻨﺎﻇﺮ ﻣﺘﻦ را اﺳﺘﺨﺮاج ﮐﻨﻨـﺪ ، ﺑـﺪﯾﻬﯽ اﺳـﺖ ﮐﻪ در اﯾﻦ ﮐﺎر اﻣﮑﺎن ﺧﻄﺎ وﺟﻮد دارد ﯾﮑــﯽ روﺷــﻬﺎی مورد استفاده در این حالت استفاده از روش هیستوگرام است هیستوگرام ﺗﺼـﺎوﯾﺮ ﻣﺘﻨـﯽ ﻣﻌﻤـﻮﻻ ﺣﻮل دو رﻧﮓ ﻧﻮﺷﺘﻪ و زﻣﯿﻨﻪ ﻣﻘﺪار ﺑﺎﻻ دارﻧﺪ وﻟﯽ ﻣﺘﻨ ﺗﺼﺎوﯾﺮﻏﯿری در ﺑﺴﯿﺎری از رﻧﮕﻬﺎ، ﻣﻮﻟﻔﻪ دارﻧد

شناسایی حروف:هدف از این مرحله عبارتست از ﺗﺒﺪﯾﻞ ﺗﺼﺎوﯾر ﺗﮏ ﺣﺮف ﻣﺮﺣﻠﻪ ﻗﺒﻠﯽ ﺑﻪ ﮐﺪﻫﺎﯾﯽ ﮐﻪ ﻧﺸﺎﻧﮕﺮﺣﺮوف ﻣـﻮرد ﻧﻈـﺮ اﺳـت ﺑﻪ ﻃﻮر ﮐﻠﯽروﺷﻬﺎی ﺷﻨﺎﺳﺎﯾی حروف به دو نوع ﻫﺴﺘﻨﺪ :

روش های مبتنی بر ﺗﺌﻮری تصمیم گیری

روش های ساختاری

در روش های نوع یک ویژگی های خاصی از تصاویر ورودی به صورت کمی اندازه گیری و استخراج شده وبه صورت درایه های یک بردار نرم افزار شناسایی کننده را تشکیل میدهند این ویژگی ها میتوانند شدت نقاط تصاویر خاکستری واﻓﻘﯽ ﯾﺎ ﻋﻤﻮدی ﺗﺼﻮﯾﺮ، ﻣﯿﺎﻧﮕﯿﻦ، وارﯾﺎﻧﺲ و ﯾﺎ ﻧﺘﺎﯾﺞ اﺟﺮای ﯾﮏ ﻓﺮاﯾﻨـﺪ ﭘﯿﭽیده روی ﺗﺼﻮﯾﺮ ﺑﺎﺷﻨﺪ . ﻧﺮم اﻓﺰار ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺑﺮدار وﯾﮋﮔﯽ ﺑﻪ ﻫﺮ ﯾﮏ ، از ﮐﻼﺳﻬﺎی ﺗﻌﯿـﯿﻦ ﺷـﺪ، اﻣﺘﯿـﺎز ی ﻧﺴـﺒﺖ ﻣـﯽ دﻫـﺪ . ﮐﻼﺳـﻬﺎیی ﮐـﻪ ﺑﯿﺸﺘﺮﯾﻦ اﻣﺘﯿـﺎز را ﮐﺴـﺐ ﮐﻨـﺪ، ﺧﺮوﺟـﯽ ﻧـﺮم اﻓـﺰار اﺳـﺖ . ﻣـﺜﻼ" در ﺗﺸﺨﯿﺺ ﺣﺮوف لاتین هر کدام از حروف یک کلاس هستند و نرم افزارهر بردار ورود ی را ﺑﻪ ﯾﮑﯽ از اﯾﻦ ﮐﻼﺳـﻬﺎ ﻧﺴـﺒﺖ ﻣـﯽ دﻫﺪ. ﯾﮑﯽ از ﻣﻬﻤﺘﺮﯾﻦ روﺷﻬﺎی اﯾﻦ ﻧﻮع، ﺷﺒﮑﻪ ﻫﺎی ﻋﺼﺒﯽ اﺳﺖ در روﺷـﻬﺎی ﻧـﻮع دو، ﺣـﺮوف ﺑـﺎ ﮐﻤـﮏ وﯾﮋﮔﯿﻬـﺎی ﺳـﺎﺧﺘﺎری ﻧﻘﻄﻪ، ﺳﺮﮐﺶ، دﺳﺘﻪ، ﺣﻠﻘﻪ، و ﻧﺤـﻮه ﻗـﺮار ﮔﯿـﺮی اﯾـﻦ وﯾﮋﮔﯿﻬـﺎ در ﮐﻨﺎرﻫﻢ ﺷﻨﺎﺳﺎﯾﯽﻣ ﯽﺷﻮﻧﺪ.

روش های پردازش چهره انسان

در تشخیص چهره انسان با دیدن تصویر یک فرد باید بگوییم که این تصویر مربوط به کدام یک از افرادی است که قبلا دیده‌ایم. این مسئله دو بخش دارد:

بخش آموزش: در این بخش افرادی را که می‌خواهیم سیستم بشناسد با تصویر به سیستم می‌دهیم د

بخش آزمایش: در این بخش اگر تصویری از یکی از افرادی که می‌شناسیم را به سیستم بدهیم، سیستم باید او را به درستی به یاد بیاورد.

این مسئله کاربردهای زیادی دارد. برای مثال اگر تعداد افرادی که آموزش می‌دهیم یک فرد باشد، می‌توان از این سیستم به عنوان جایگزین رمز عبور برای رایانه استفاده کرد یا برای مثال تصویر چهره مجرم‌ها را به سامانه آموزش دهیم، می‌توان از دوربین‌های سطح شهر برای پیدا کردن مجرم‌ها استفاده کرد


یک سیستم تشخیص چهره متداول شامل سه مرحله زیر است:

  • کشف چهره
  • استخراج الگوها
  • تشخیص چهره
  • الگوریتم ها

الگوریتمهای مختلفی برای تشخیص چهره وجود دارند که معمول ترین آنها عبارتند از:

PCA – ICA – LFDA – EBGM – SVM

PCAالگوریتم

این روش پیشنهاد شد که از تحلیل المانهای اصلی برای کاهش بعد استفاده کرده تا بتواند زیرفضایی با بردارهای متعامد پیدا کند که در آن زیرفضا پراکندگی داده ها را به بهترین حالت نشان دهد. این زیرفضا را هنگامی که بر روی داده های چهره اعمال شوند، فضای چهره میگویند. پس از مشخص شدن بردارها تمامی تصاویر به این زیر فضا منتقل می‏‏شوند تا وزنهایی که بیانگر تصویر در آن زیرفضا هستند بدست آیند. با مقایسه شباهت وزنهای موجود با وزن تصویر جدیدی که به این زیر فضا منتقل شده می‏‏توان تصویر ورودی را شناسایی کرد با نمایش بردار ی چهره ی انسان که توسط کنار هم قرار دادن سطرهای ماتریس تصو یر حاصل می شود می توان چهره ی انسان را برداری در فضایی با ابعاد بالا در نظر گرفت. با توجه به خصوصیات مشابه چهره ها، می توان نتیجه گرفت که بردار چهره ها در ز یرفضایی با ابعاد پایین تر واقع شده اند. با نگاشت چهره به این زیر فضا می توان تصاو یر پایه ی جدیدی به دست آورد که هر چهره با کمک این بر دارهای پایه توصیف می شود. در واقع هر چهره ترکیب خطی این تصاو یر پایه می باشد .ضرایب این ترکیب خطی به عنوان بردار خصیصه مورد استفاده قرار می گیرند


بخش تشخیص چهره

برای تشخیص اینکه یک عکس جدید مربوط به کدام یک از عکسهایی که سیستم با آن تمرین داده شده است, می باشد باید تمام عکسهایی که سیستم با آن تمرین داده شده است و همچنین عکس جدید را به فضای چهره نگاشت کنیم

چند لایه PCA روش

این روش به این صورت است که پس از این که سیستم با چند عکس تمرین داده شد, عکسها بر اساس میزان نزدیکی به تصویر ورودی مرتب می شوند. تعدادی از شبیه ترین عکس ها به عکس ورودی انتخاب می شوند و سیستم دوباره و با این تعداد عکس انتخاب شده تمرین داده می شود. این روند می تواند چند مرحله ی دیگر تکرار شود. با توجه به اینکه در هر مرحله دامنه ی جستجو محدود تر می شود, انتظار می رود که نتایج دقیق تری بدست آید. هر مرحله از این الگوریتم را یک لایه می نامند

?

Modular PCAروش

روش معمولی این در مقابل تغییرات حالت قرار گرفتن چهره در تصویر و تغییرات میزان نور در تصویر, بازده خوبی ندارد. چون در این روش مشخصات عمومی چهره, در قالب مجموعه ای از وزن ها (بردار وزن ها) توصیف می شود. تک تک این وزن ها وابسته به تمام نواحی چهره می باشند. بنابراین با تغییر حالت چهره و نورپردازی, حتی در قسمتی از تصویر, تمام وزن های این بردار دچار تغییر می شوند.

روش MudularPca سعی در رفع این مشکل دارد. در این روش یک عکس به چند قسمت کوچکتر تقسیم می شود والگوریتم را روی ان عکس ها اعمال گردد بردار وزن ها برای هر قطعه به صورت جداگانه محاسبه می شود.

با این عمل(تقسیم تصویر به چند تکه), تغییر در قسمتی از تصویر تنها بردار ویژگی آن قسمت از تصویر را تغییر می دهد و بردارهای مربوط به سایر قطعات بدون تغییر باقی می مانند. هنگام تشخیص چهره, هر قطعه از عکس ورودی با قطعه ی متناظر در تصاویری که سیستم با آنها تمرین داده شده است مقایسه می شود و به تعداد قطعات, فاصله محاسبه می شود. تصویری که مجموع فواصل قطعات آن با قطعات عکس ورودی کمتر از سایر تصاویر باشد


روش مینیمم هیستوگرام

در ابتدا باید به تعاریف اصلی بپردازیم نمودار بافت‌نگار یا بافت‌نگاشت یا هیستوگرام نمایشی از توزیع داده‌های کمی پیوسته‌است که می‌تواند تخمینی از توزیع احتمال باشد و اولین بار توسط کارل پیرسون به کار گرفته‌شد. بافت‌نگار یکی از ۷ ابزار کنترل کیفیت است. تفاوت بافت‌نگار با نمودار میله‌ای در آن است که نمودار میله‌ای مربوط به توزیع دو متغیر تصادفی است ولی بافت‌نگار مربوط به یک متغیر است برای رسم بافت نگار ابتدا باید داده‌ها را به بازه‌های کوچک افراز (معمولاً طول بازه‌ها برابر در نظر گرفته‌می‌شود)، سپس تعداد داده‌های هر بازه را محاسبه کرد پس از آن اگر طول بازه‌ها برابر بود، روی هر بازه یک مستطیل با ارتفاع متناسب فراوانی آن بازه کشیده می‌شود اگر طول بازه‌ها برابر نبود، روی هر بازه یک مستطیل با مساحت متناسب فراوانی آن بازه کشیده می‌شود. در این حالت محور عمودی دیگر نشان‌دهنده فراوانی نیست بلکه نشان‌دهنده چگالی فراوانی - تعداد پیشامدها بر واحد متغیر تصادفی روی محور افقی – است.


هیستوگرام هم جزیی از روش های بخش بندی تصویر است روش‌های مبتنی بر هیستوگرام نسبت به سایر روش‌های بخش‌بندی بسیار کارآمد هستند. دلیل این امر آن است که این روش‌ها تنها به یکبار وارسی پیکسل‌ها نیاز دارند. در این روش هیستوگرام از روی تمامی پیکسل‌های موجود در تصویر محاسبه می‌شود و قله‌ها و دره‌های موجود در منحنی هیستوگرام برای پیدا کردن مکان کلاس‌ها، مورد استفاده قرار می‌گیرند. در این تکنیک، رنگ یا شدت نور می‌تواند به عنوان یک معیار سنجش لحاظ شودورژن اصلاح شده این تکنیک، اعمال روش جستجوگر هیستوگرام برای تقسیم یک تصویر به کلاس‌های کوچک‌تر است. این عملیات تا زمانی که کلاس‌ها دیگر قابلیت تقسیم و کوچک شدن را نداشته باشند، ادامه پیدا می‌کندیک نقطه ضعف در روش هیستوگرام، این است که ممکن است پیدا کردن دقیق قله‌ها و دره‌ها مشکل باشد روش هیستوگرام می‌تواند به سرعت برای اعمال به فریم‌ها خود را تطبیق دهد و همزمان بازده خود را حفظ کند. وقتی که فریم‌های مختلف در نظر گرفته شوند، روش هیستوگرام را می‌توان در چند حالت به تصویر اعمال کرد. همان عملیاتی که می‌تواند بر روی یک فریم اعمال شود، می‌تواند برای چند فریم هم پیاده‌سازی گردد و نهایتاً خروجی اصلی، مجموع تمامی خروجی فریم‌ها خواهدبود. قله‌ها و دره‌ها که پیش تر به سختی قابل شناسایی بودند، به سادگی تمیز داده می‌شوند. روش هیستوگرام در جایی‌که دیتای خروجی برای مشخص کردن مُد رنگ در محل پیکسل استفاده می‌شود، می‌تواند بر اساس پیکسل هم اعمال شود. این روش بخش‌بندی بر اساس اشیاء متحرک و محیط ساکن است. ازین روش در پیدا کردن موقعیت ابجکت‌های متحرک در ویدئوها، استفاده می‌شود

مساوی سازی هیستوگرام

مساوی سازی هیستوگرام به عملی گفته میشود که تصویر داری هیستوگرام دلخواه را به تصویری با هیستوگرام صاف تبدیل میکند روش هیستوگرام بر مبنای نتایج شناخته شده تئوري احتمالات استوار است برای انجام مساوی سازی هیستوگرام برای یک تصویر داده شده ابتدا هیستوگرام ان را محاسبه میکنیم سپس براي هر مقدار موجود در تصویراصلی مقادیر نرمالیز شده هیستوگرام را از سطح صفر تا ان مقدار جمع میکنیم یک هیستوگرام صاف ممکن است به تصویر خوب منجر نشود شکل زیر مثالی ازمساوی سازی هیستوگرام است.


مینیمم هیستوگرام

در این روش ابتدا استانه برابر مینیمم بین دوقله در هیستوگرام عکس مورد نظر در نظر گرفته میشود هیستوگرام تصاویر معمولا داری 3قله هستند.یک قله مربوط به مو قله دیگر که بین دو قله قرار دارد مربوط به صورت است و بسته به رنگ پوست افراد دارای سطوح خاکستری متفاوت است بنابرین باید مینیمم بین قله دوم وسوم را بیابیم به عنوان استانه در نظر بگیریم


روش درصد دنباله هیستوگرام

در این روش فرض میکنیم میدانیم چند درصد از کل تصویر را شی مورد نظر تشکیل داده بنابرین استانه را طوری در نظر میگیریم که درصد مورد نظر از سطوح خاکستری در یک طرف استانه قرار گیرد

روش برگشتی

این روش را میتوان برای پیدا کردن اتوماتیک استانه هایی بین تعدادی سطح خاکستری به کار برد از دو روش قبلتر بهتر به نظر میرسد.در این روش تصاویر را سه سطحی در نظر میگیریم و دو استانه به وسیله این روش محاسبه میکنیم سطوح مربوط بین دو استانه مربوط به صورت میباشد از انجاییکه میخاهیم زمینه را سفید وسر را سیاه کنیم از استانه بزرگتری استفاده میکنیم.

روش ماکزیمم واریانس

در این روش استانه ای پیدا میشود واریانس بین سطوح خاکستری شی و زمینه باهم تداخل دارد یا یه عبارتی قله های هیستوگرام دو ناحیه مربوط به انها روی هم میفتد مفید است. از این الگوریتم برای باینری کردن تصاویر استفاده میکنیم به منظور سریع شدن الگوریتم به جای فرض اولیه زمینه بودن چهار گوشه تصویر الگوریتن را با فرض یک مقدار اولیه برای استانه شروع میکنیم و سپس الگوریتم را ادامه میدهیم

ویژگی های الگوریتم با روش ضریب خود همبستگی

این ویژگی ها با محاسبه همبستگی تصویر با خودش محاسبه میشود و نسبت به انتقال و دوران در تصویر مستقل هستند که یک رابطه ای برای تصاویر باینری وجود دارد ازمایشها نشان دادند که در صورت حداقل بودن تعداد تصاویر یک فرد نرخ شاناسایی بسیار بالاست اما تغییرات نور و... تاثیر به سزایی در تشخیص نرم افزار هوشمند دارد.

انجام پروژه پردازش تصویر

با توجه به کاربردهای گسترده پردازش تصویر در حوزه‌های مختلف مهندسی سیاری از کارفرمایان به دلیل عدم آشنایی و تجربه کار با پایتون و متلب به خصوص جعبه ابزار پردازش تصاویر در انجام پروژه های تخصصی و صنعتی پردازش تصویر خود نیاز به کمک و مشاوره دارند.

چند ضلعی با بهره‌گیری از متخصصان و محققان برتر در زمینه پردازش تصویر با متلب و پایتون آمادگی کمک به شما عزیزان را در حوزه های مختلف صنعتی و مهندسی نظیر برق کامپیوتر و ... دارد. .به همین منظور شما می توانید پس از ثبت سفارش پروژه پردازش تصویر خود با کارشناسان چند ضلعی در ارتباط باشید و پس از بررسی مستندات مربوط به پروژه  از کمک و راهنمایی‌های کارشناسان ما در جهت پیشبرد پروژه استفاده نمایید.کادر چند ضلعی با بررسی مستندات پروژه و همچنین نوآوری های مد نظر شما اقدام به انجام پروژه پردازش تصویر شما شما در کوتاهترین زمان و با بالاترین کیفیت ممکن می نماید.

پردازش تصویرانجام پروژه پردازش تصویرپردازش تصویر چیستمراحل پردازش تصویرocr چیست
انجام پروژه های دانشجویی، تخصصی و صنعتی
شاید از این پست‌ها خوشتان بیاید