امروزه برنامههای ساخت تصاویر توسط هوش مصنوعی مثل «dall-e» و «stable diffusion» یکی از گرمترین مباحث موجود در محافل علمی و همینطور هنری هستند. شاید تصور کنید این نوع ابزارها در پنج یا ده سال گذشته توسعه یافتهاند؛ اما اولین نمونۀ این فناوری در دهۀ ۶۰ میلادی به نام «AARON» در دانشگاه سندیگو توسعه یافته است.
در سالهای اخیر، با پیشرفت قابل توجه صنعت تراشه و توسعۀ کامپیوترهایی با میلیونها بار توان پردازشی بیشتر، میتوانیم تصاویری دقیق و در زمانهای بسیار کمتر با کمک هوش مصنوعی خلق کنیم. این شبکههای هوش مصنوعی با استفاده از روشهای متعدد پردازشی مانند «natural language processing (NLP)» [1]یا «generative adversarial network (GAN)» [2]اقدام به تولید تصاویر با استفاده از الگوهای موجود در واقعیت، یا حتی تصاویری خلاقانه که نمونۀ واقعی در دنیا ندارد، میکنند.
یک روش برای آموزش این شبکهها به این شکل است؛ فرض میکنیم تصویری از یک مرغ داریم. اگر در چند مرحله به این تصویر نویز اضافه کنیم، در آخر به جایی میرسیم که دیگر در تصویر، مرغ مشخص نیست و فقط نویز میبینیم. حال یک شبکۀ عصبی طراحی میکنیم که بتواند نویز تصویر را بگیرد. اگر تصویر را در مرحلۀ اول با کمی نویز به شبکه بدهیم، چون نویز کمی وجود دارد، شبکه میتواند به سادگی نویزها را از تصویر اصلی جدا کند. در یک چرخه هر بار نویز بیشتری به تصویر اضافه میکنیم و شبکۀ عصبی مرحلهبهمرحله از نویز آن میکاهد و آن را به تصویر اصلی نزدیکتر میکند. در مراحل اولیه شاید با یک تصویر تار و هالهای شبیه به یک تخممرغ مواجه شویم؛ اما با رشد شبکۀ عصبی طی هزاران بار تکرار این فرایند، میتوانیم از تصاویر پر از نویز و حتی نویز خالص که در آن هیچچیز مشخص نیست، به یک تصویر واقعی نزدیک شویم.
حال اگر به جای این نویز از متون استفاده کنیم، با استفاده از کلمات و توسعۀ شبکۀ عصبی برای سنتز و درک متون، میتوانیم تصاویر دلخواه خود را تولید کنیم. این ابزارها تأثیر بزرگی در صنعت تصویرسازی دارند و همهجا میتوان آنها را مشاهده کرد؛ برای مثال در کتابهایی که کاملاً توسط هوش مصنوعی تصویرسازی شدهاند یا در تصاویر ساختهشده توسط هوش مصنوعی که در رقابتهای تصویرسازی « Colorado State Fair's fine arts competition» برنده شدهاند و شکایت دیگر هنرمندان شرکتکننده در این رقابت را هم به همراه داشتهاند. حتی چنین تصاویری در گالریهای هنری به نمایش درآمده و با قیمتهای قابل توجهی به فروش رفتهاند.
شبکههایی هم برای کسب درآمد از این روش ایجاد شدهاند. در مورد ارزش هنری و حقوقی تصاویر ساختهشده بحثهای بسیاری وجود دارد. این شبکهها برای آموزش و توسعۀ خود از میلیونها تصویر موجود در اینترنت که شامل کپیرایت میشوند، استفاده میکنند. به همین دلیل مشخص نیست صاحب معنوی و تولیدکنندۀ واقعی اثر کیست؛ توسعهدهندۀ ربات که صدها هزار دلار برای آن هزینه کرده است یا شخصی که از ابزار استفاده کرده و با کمک آن دست به تولید یک اثر هنری زده است.
این ابزارها بهزودی در تمام ابعاد زندگی ما نفوذ خواهند کرد و بخشی از حیات روزمرۀ ما خواهند شد. مانند تابلوهایی که به دیوار خانهها آویزان میشوند و کتابهای مصور و حتی هوش مصنوعیهای جدیدتر که قادر خواهند بود صدا و فیلم هم خلق کنند و بهزودی ممکن است بخش بزرگی از رسانه از تولیدات این ابزارها باشد.
[1] الگوریتمهای بر پایۀ هوش مصنوعی برای ارتباط بهتر زبان طبیعی انسان و کامپیوتر
[2] مدل یادگیری ماشین بهصورت قراردادن دو شبکۀ هوش مصنوعی به شکل رقابتی در کنار هم برای بالابردن دقت شبکه