بینایی کامپیوتری بخشی از علوم کامپیوتر است. در بینایی کامپیوتر سعی می شود به کامپیوتر ها آموزش داده شود که چگونه ببینند و دیدن در واقع به درک کردن صحنه ها، بازسازی اشیا سه بعدی، تشخیص اشیا، اجتناب از موانع و کمک به جهت یابی نابینایان بر می گردد.
بسیاری از این توصیفات از فراگیری ماشین و همچنین از هندسه و ریاضیات کاربردی استفاده می کنند این در واقع همان رشته ای است که در طول ۴۰-۵۰ سال گذشته بر روی آن کار می کنند.
بینایی کامپیوتر به برقراری ثبات دوربین کمک می کند و البته جهان مجازی را هم خلق می کند، به دوربین ها در تشخیص صورت ها کمک می کند تا آن ها تار نباشد و همچنین در زمینه ی درک رویداد های یک ویدیو در حال پیشرفت است.
از دید کامپیوتر، عکس آرایه ای از اعداد است یا اگر رنگی هم در کار باشد باز سه آرایه از اعداد خواهد بود مثلا سه عدد۱۵۰،۲۵،۱۷۴ رنگ بنفش است. این پیکسل ها به خودی خود معنایی برای کامپیوتر ندارند و کامپیوتر باید معنای آن ها را تفسیر کند که به طور کلی چهار روش برای این کار وجود دارد:
رویکرد اولrecognition است. فعالیت های زیادی در این زمینه بر روی تشخیص اشیا صورت گرفته است. در صورتی که عکسی داشته باشیم این که موقعیت تمامی اشیا کجاست و آن اشیا چه هستد مثلا در تصویر یک درخت، به این معنا که این یک درخت است و البته نه تشخیص نوع درخت.
یک رویکرد دیگر تشخیص، بازسازی فیزیکی reconstruction است. با فرض در اختیار داشتن یک تصویر، شکل سه بعدی اجزای تصویر به چه شکل است.
رویکرد دیگر registration (ثبت)که به نوعی دنبال کردن و هم تراز کردن مدل ها است مثلا اگر خودروی خودران دارید و می خواهید که عابرین پیاده و خطوط علامت گذاری شده را دنبال کنید و یا لنز های سلفی.
ودر آخر reoganization به معنای ساماندهی مجدد به شکلی وسیع تر، که یادگیری بدون نظارت نامیده می شود. به طور سنتی، مدل های بینایی کامپیوتری به وسیله اطلاعات حجیم برچسب گذاری شده و تمرین داده می شوند. هدف یادگیری بدون نظارت این است که به نحوی اطلاعات بدست بیاید و به شکلی مجددا در راستایی ساماندهی شود که برای شخص معنادار شوند. برای مثال یک آزمایشگاه روباتیک گوگل که ربات شی ای را بر می دارد که در گذشته این روبات ها اشیایی را که برای آن ها تعریف شده بود را بر می داشتند درحالیکه امروزه آن ها می توانند شی را که حتی برای آن ها تعریف نشده را هم بر دارند. که وقتی ربات شی را مشاهده می کند آن را به عنوان یک شی تشخیص نمی دهد و ربات فقط از تصویر برای برداشتن شی استفاده می کند.
بینایی کامپیوتری روشی مناسب برای یادگیری در مورد جهان است. اگر بتوان آن چیزی را که به طور بصری در اطرافمان هستند را تجزیه کنیم، می توانیم مقدار زیادی اطلاعات در مورد جهان واقعی که به آن دسترسی نداریم، یاد بگیریم.
هدف بینایی کامپیوتری در آینده این است که بتوان با استفاده از آن هر نوع اطلاعاتی درباره آن چه که در اطراف وجود دارد، به ما بدهد برای مثال با استفاده از گوشی های مدرن و گرفتن عکس از یک حشره هر نوع اطلاعاتی را در مورد آن حشره در اختیار ما قرار بدهد.