مرکز تحقیقات هوش مصنوعی پارت
مرکز تحقیقات هوش مصنوعی پارت
خواندن ۸ دقیقه·۴ سال پیش

ابزارهای بینایی ماشین و کتابخانه‌‍‌ها

آیا تا به حال به این موضوع فکر کرده‌اید که ماشین یا ربات چگونه می‌تواند تصاویر را شناسایی کند؟ این کار به لطف یک حوزه تحقیقاتی بین رشته‌ای تحت عنوان «بینایی رایانه » امکان‌پذیر شده است. ابزارهای بینایی ماشین چیست؟ به همان شیوه‌ای که چشم در مشاهده و ارائه واکنش نسبت به محیط پیرامون به انسان کمک می‌کند، الگوریتم‌های یادگیری ماشین و یادگیری عمیق و همچنین قطعات سخت‌افزاری از قبیل دوربین و حسگر با یکدیگر در رایانه فعالیت می‌کنند تا این هدف محقق شود. بینایی ماشینقدرت ادراک، دسته‌بندی، شناسایی و ارائه واکنش به اجسام پیرامون را به ماشین اعطا می‌کند.

محققان طیف وسیعی از ابزارها و کتابخانه‌های نرم‌افزاری ساخته‌اند تا پروژه‌ها و نرم‌افزارهای گوناگون را با بینایی ماشین تقویت کنند. مقاله حاضر بر آن است تا خوانندگان را با برخی از این ابزارها و کتابخانه‌های مشهور و پرکاربرد آشنا کند. پس تمرکز اصلی مقاله، آشناسازی و آگاهی‌بخشی به خوانندگان در خصوص این فناوری‌ها است. انتظار می‌رود افراد پس از مطالعه دقیق این مقاله به اطلاعات خوبی در خصوص چگونگی استفاده از ابزارها و کتابخانه‌ها در نرم‌افزارهایشان دست پیدا کنند.
اکنون به معرفی این لیست می‌پردازیم:

معرفی OPENVINO
بینایی ماشین
بینایی ماشین

بینایی ماشین

حدود ۸۰ درصد از رایانه‌های شخصی به پردازنده اینتل مجهز هستند. پس اصلاً جای تعجب نیست که ماشین‌هایِ مورد استفاده‌ی شما نیز به احتمال ۸۰ درصد مجهز به پردازنده اینتل باشد. حال سوال این است که چرا اینتل؟ توسعه‌دهندگان کارشان را به خوبی بلد هستند و قابلیت ساخت بهترین پردازنده‌ها را دارند. اما این تنها دستاورد اینتل نیست. اینتل با ساخت تول‌کیتی برای طیف کثیری از نرم‌افزارهای هوش مصنوعی، در عرصه مدل‌های تقاضامحور پیشگام است. این نرم‌افزارها عمدتاً بر پایه بینایی ماشین قرار دارند.
اینتل تول‌کیت OpenVINO خود را در روز ۱۶ مِه ۲۰۱۸ روانه بازار کرد. این تول‌کیت با زبان برنامه‌نویسی C++ و پایتون نوشته شده است. VINO خلاصه شدۀ عبارت «استنتاج بصری و بهینه‌سازی شبکه عصبی» است. شاید این عبارت برایتان بیگانه باشد، اما واقعیت این است که اگر با آن عبارات آشنایی داشته باشید، در همان نگاه اول تشخیص می‌دهید که این تول‌کیت چه کاربردی دارد. پس بگذارید کار را شروع کنیم. استنتاج . این اصطلاح به معنای استفاده از مدل است و تا حد زیادی به استفاده از مدل آموزش دیده برای پیش‌بینی اشاره می‌کند. در استنتاج بصری، از مدل آموزش دیده برای پیش‌بینی مسائل در مرجع بصری استفاده می‌شود؛ رویکردی که در بینایی ماشین هم به کار برده می‌شود. عبارت بعدی، «بهینه‌سازی شبکه عصبی» است و به بهینه‌سازی شبکه عصبی در آموزشِ شبکه اشاره می‌کند. همین قدر کافی است! این اطلاعات مختصر برای پی بردن به کارکرد OpenVINO کفایت می‌کند. این تول‌کیت به بهینه‌سازیِ مدلِ آموزش دیده پرداخته و می‌تواند بطور مستقیم ابزارهایی را برای استفاده از آن مدل فراهم نماید تا استنتاج بصری به سرعت انجام پذیرد. به همین سادگی!

این تول‌کیت در چه جاهایی کاربرد دارد؟
OpenVINO همیشه از شما می‌خواهد که یک مدلِ از پیش آموزش دیده در اختیارش قرار دهید. این تول‌کیت هیچ ابزاری ارائه نمی‌کند تا با آن مدل‌ مورد نظرتان را توسعه دهید یا به کدنویسی آن بپردازید. امکانات این تول‌کیت می‌تواند در مراحل بعدی به کار بیاید. تول‌کیت OpenVINO از چندین مدلِ از پیش آموزش داده شده تشکیل یافته است و تحت مولفه تول‌کیت «Model Zoo» ارائه شده است که امکان استفاده مستقیم از این مولفه وجود دارد. باید این نکته را به خاطر داشته باشید که «Model Zoo» تول‌کیتِ مخصوص توسعه مدل نیست. از دید نرم‌افزاری، این تول‌کیت برای بهینه‌سازی و استقرار مدل به کار برده می‌شود.

موارد کاربرد این تول‌کیت در بخش زیر خلاصه می‌شود:
• بهینه‌سازی الگوریتم‌ها
• استفاده آسان از الگوریتم‌ها در هر پلتفرمی
• استفاده از «Model Zoo» با هدف بکارگیریِ مدلی که بهترین عملکرد را در مسئله مورد نظر کاربر داشته باشد.
• استفاده از موتور استنتاج
• بهینه‌سازی قابلیت‌های پردازش تصویر با استفاده از OpenCV
مطمئنم هیجان زیادی دارید که خودتان این تول‌کیت را امتحان کنید. خب توصیه می‌کنیم به این لینک مراجعه کنید

معرفی OpenCV

دور از انصاف است که درباره کتابخانه‌های بینایی ماشین حرف بزنید، اما اشاره‌ای به OpenCV نکنید. OpenCV کتابخانه پردازش تصویری است که سه شرکت به نام اینتل، Itseez و Willow Garage در طراحی و ساخت آن ایفای نقش کرده‌اند. این کتابخانه از سال ۲۰۰۰ در دسترس کاربران قرار گرفته است. کتابخانه OpenCV عمدتاً با زبان برنامه‌نویسی C++ نوشته شده، اما برخی از ماژول‌ها با C نوشته شده‌اند. این کتابخانه برخلاف OpeNvino کاربردهای بسیار زیادی دارد. این کتابخانه قادر است مراحل پیش‌آموزش مدل و پیش‌استقرار را با تاکید بیشتر بر پردازش تصویر انجام دهد.

البته OpenCV می‌تواند در موارد زیر به کار برده شود:
• کارهای پیش‌پردازش مثل مقیاس‌دهی، حذف نویز و سایر کارهای فرمتینگ در تصویر یا ویدئو.
• این کتابخانه می‌تواند برای اجرای ۲۵۰۰ مدل بهینه‌سازی شده استفاده گردد؛ مدل‌هایی که در این کتابخانه گنجانده شده‌اند.
• این کتابخانه می‌تواند برای توسعه جدیدترین مدل‌ها در بینایی ماشین و یادگیری ماشین به کار برده شود.
• OpenCV برای توسعه مدل‌ها از دسته‌های مختلف نیز کاربرد دارد؛ از جمله این دسته‌ها می‌توان به تشخیص و بازشناسی چهره، تشخیص اشیاء، استخراج مدل سه‌بعدی و هر کاربرد دیگری که به ذهن‌تان می‌رسد، اشاره کرد.

OpenCV کتابخانه‌ای فوق‌العاده است که جامعه کاربران وسیعی دارد و بیش از ۴۷۰۰۰ توسعه‌دهنده در این جامعه عضویت دارند. این توسعه‌دهندگان برای هر مسئله‌ای که با آن مواجه می‌شوید، جواب دارند. نه تنها برخی از استارت‌آپ‌های بزرگ از این کتابخانه استفاده می‌کنند، بلکه غول‌های حوزه فناوری از قبیل گوگل، یاهو و مایکروسافت نیز به استفاده از OpenCV می‌پردازند. یکی از موارد استفادۀ کتابخانه OpenCV، تشخیص چهره است. OpenCV این امکان را در اختیار کاربر می‌گذارد تا فعالیت‌های پردازش تصویر و الگوریتم‌های پیش‌بینی را به نحو احسن انجام دهد. نه تنها می‌توانید از الگوریتم شناسایی اشیاء استفاده کنید، بلکه این فرصت را دارید تا از ابزار «ردیابی اشیاء» برای ردیابی چهره به صورت فریم به فریم در ویدئو نیز استفاده نمائید. افزون بر این، OpenCV امکان آزمایش مدل را در ویدئوی زنده و حتی ویدئوی از پیش ضبط شده نیز فراهم می‌کند. حاضرید که کار رو شروع کنید؟ به این لینک مراجعه کنید و اولین مدل‌تون رو با این کتابخانه امتحان کنید.

پلتفرم‌های سرویس ابری

بینایی ماشین
بینایی ماشین

بینایی ماشین

اگر بحث از چارچوب‌های بینایی ماشین باشد و نامی از غول‌های فناوری در آن نباشد، شاید این تصور در ذهن ایجاد شود که گوگل این مقاله را در موتور جستجویش ندارد. گوگل محصول خود را «Vision AI» نامگذاری کرده است که اساساً دو محصولِ AutoML Vision و Vision API را دربرمی‌گیرد. این محصول به قدری GUI ساده ای دارد که هر شخصی می‌تواند برای آموزش الگوریتم‌های بینایی از آن بهره ببرد. خب برای به کارگیری آن باید چه کار کنیم؟  فقط کافی است تصاویر را بارگذاری کنید و مدلی انتخاب کنید تا فرایند آموزش بر روی آن پیاده‌سازی شود. تمام! به همین سادگی! آمازون هم ابزاری تحت عنوان Amazon Rekognition دارد که این فرصت را به کاربران می‌دهد تا مدل‌های یادگیری عمیق‌ شان را به راحتی استفاده کنند. مایکروسافت نیز خدمات ابری Azure را عرضه کرده است و از این طریق API بینایی رایانه را اجرا می‌کند تا مدل‌های بینایی رایانه را در ابر پردازش و تحلیل کرده و توسعه‌شان دهد. شرکت IBM دو موتور بینایی رایانه فوق‌العاده موسوم به Watson Visual Recognition و PowerAI Vision دارد.
امکان استفاده از Watson Visual Recognition برای تجزیه و تحلیل تصاویر و ویدئوها وجود دارد. هدف از این کار، دسته‌بندی و سایر امور مرتبط با یادگیری ماشین است. PowerAI Vision زمینه را برای آموزش مدل‌های بسیار دقیق فراهم می‌کند و نیازی به تخصص در یادگیری عمیق ندارد. همه راه‌حل‌های ابری به این جهت ایجاد شده‌اند که کاربران بتوانند به راحتی مدل‌های بینایی ماشین را توسعه داده و به کار گیرند؛ بدون اینکه تخصص فنی بالایی در این زمینه داشته باشند. البته باید برای استفاده از این خدمات مبلغی را پرداخت کنید. میلیون‌ها کاربر از این خدمات برای توسعه نرم‌افزارهای گوناگون استفاده می‌کنند؛ محصولات خود شرکت‌ها نیز با بهره‌گیری از این فناوری‌ها توسعه داده شده است. گویا هیچ یک از غول‌های فناوری قصد ندارند به راحتی از رقابت برای ارائه خدمات بینایی رایانه پا پس بکشند.

میز کار بینایی ناسا

شاید این موضوع اصلاً به ذهن‌مان خطور نکند، اما ناسا نیاز زیادی به کتابخانه‌های پردازش تصویر دارد و شاید در این راستا به استفاده از کتابخانه خاص خودش روی آورد. بنابراین، بخش «سیستم‌های هوشمند مرکز تحقیقات Ames» طراحی و توسعه کتابخانه «میز کار بینایی» را بر عهده داشت. این کتابخانه به زبان C++ نوشته شده است. برخلاف سایر کتابخانه‌ها، VWB توان بالایی برای ارائه مدل‌هایی با عملکرد نوین ندارد. VWB به منظور تجزیه و تحلیل تصاویر فضایی ساخته شده است. این کتابخانه در پیشبرد اهداف تحقیقاتی و رباتیک نقش بسزایی خواهد داشت.

کتابخانه VWB در امور زیر کاربرد دارد:
• تحلیل تصاویر
• افزایش کیفیت تصاویر
• تبدیلات هندسی و فضایی برای تجسم تصاویر
• ایجاد مدل‌های مختصر و فشرده برای بکارگیری در موتورهای رباتیک فضایی

معرفی NVIDIA VISIONWORKS

همه به این موضوع واقف‌اند که Nvidia بهترین کارت‌های گرافیک را برای آموزش سریع مدل‌های بینایی ماشین عرضه می‌کند. اما Nvidia کتابخانه مخصوص خود را برای توسعه مدل‌های بینایی ماشین توسعه داده که VisionWorks نام دارد. افراد می‌توانند با استفاده از VisionWorks خطوط لوله بینایی ماشین خود را با استفاده از ماژول‌‍‌های ساده و فوق‌العادۀ این تول‌کیت بسازند. VisionWorks این فرصت را به کاربران می‌دهد تا کارهای زیر را انجام دهند:
• کارهای رباتیک، توسعه الگوریتم‌های محلی‌سازی و ردیاب‌های تصویری سریع
• نرم‌افزارهای مبتنی بر واقعیت افزوده؛ گرفتن خروجی سریع‌تر از کارهای گرافیکی
• تحلیل هوشمند ویدئو

رانندگی خودران یکی از بهترین موارد کاربرد است که راهبرد طراحی شده با VisionWorks آن را محقَق ساخته است. این کتابخانه یک رابط برنامه‌نویسی بینایی CUDA مستقیم در اختیار توسعه‌دهنده‌ها گذاشت و توسعه سریعِ شناساگر‌های اشیاء را آسان کرد. شناسایی اشیاء یکی از ویژگی‌های کلیدی در رانندگی خودکار محسوب می‌شود. VisionWorks زمینه را برای ردیابی و تحلیلِ آسان چندین صحنه به صورت توامان فراهم می‌کند. این تول‌کیت باعث می‌شود از حداکثر توان پردازنده Nvidia در موارد بینایی ماشین استفاده کنید. این موضوع را فراموش نکنید که نیازی به دانش سرشار در خصوص چگونگی کارکرد این کتابخانه‌ها ندارید. به محض اینکه بینش خوبی درباره توان این کتابخانه‌ برای ارائه ورودی و خروجی کسب کردید، موارد استفاده عملی از آنها را نیز یاد خواهید گرفت.

منبع: hooshio.com

بینایی ماشینابزارهای بینایی ماشیندیتاست بینایی ماشینالگوریتم های یادگیری ماشینکتابخانه هوش مصنوعی
هوشمندسازی فرآیندهای زندگی https://partdp.ai/
شاید از این پست‌ها خوشتان بیاید