خواندن ۳ دقیقه·۲ سال پیش

تصویرساز؟ نه ممنون هوش مصنوعی دارم!

تحول تولید محتوا، با در دسترس قرارگرفتن ربات‌های تولید تصویر

محمد خدمتی، ورودی ۹۹ مهندسی مکانیک

امروزه برنامه‌های ساخت تصاویر توسط هوش مصنوعی مثل «dall-e» و «stable diffusion» یکی از گرم‌ترین مباحث موجود در محافل علمی و همین‌طور هنری هستند. شاید تصور کنید این نوع ابزارها در پنج یا ده سال گذشته توسعه یافته‌اند؛ اما اولین نمونۀ این فناوری در دهۀ ۶۰ میلادی به نام «AARON» در دانشگاه سن‌دیگو توسعه یافته است.

در سال‌های اخیر، با پیشرفت قابل توجه صنعت تراشه و توسعۀ کامپیوترهایی با میلیون‌ها بار توان پردازشی بیشتر، می‌توانیم تصاویری دقیق و در زمان‌های بسیار کمتر با کمک هوش مصنوعی خلق کنیم. این شبکه‌های هوش مصنوعی با استفاده از روش‌های متعدد پردازشی مانند «natural language processing (NLP)» [1]یا «generative adversarial network (GAN)» [2]اقدام به تولید تصاویر با استفاده از الگوهای موجود در واقعیت، یا حتی تصاویری خلاقانه که نمونۀ واقعی در دنیا ندارد، می‌کنند.

یک روش برای آموزش این شبکه‌ها به این شکل است؛ فرض می‌کنیم تصویری از یک مرغ داریم. اگر در چند مرحله به این تصویر نویز اضافه کنیم، در آخر به جایی می‌رسیم که دیگر در تصویر، مرغ مشخص نیست و فقط نویز می‌بینیم. حال یک شبکۀ عصبی طراحی می‌کنیم که بتواند نویز تصویر را بگیرد. اگر تصویر را در مرحلۀ اول با کمی نویز به شبکه بدهیم، چون نویز کمی وجود دارد، شبکه می‌تواند به‌ سادگی نویز‌ها را از تصویر اصلی جدا کند. در یک چرخه هر بار نویز بیشتری به تصویر اضافه می‌کنیم و شبکۀ عصبی مرحله‌به‌مرحله از نویز آن می‌کاهد و آن را به تصویر اصلی نزدیک‌تر می‌کند. در مراحل اولیه شاید با یک تصویر تار و هاله‌ای شبیه به یک تخم‌مرغ مواجه شویم؛ اما با رشد شبکۀ عصبی طی هزاران بار تکرار این فرایند، می‌توانیم از تصاویر پر از نویز و حتی نویز خالص که در آن هیچ‌چیز مشخص نیست، به یک تصویر واقعی نزدیک شویم.

حال اگر به جای این نویز از متون استفاده کنیم، با استفاده از کلمات و توسعۀ شبکۀ عصبی برای سنتز و درک متون، می‌توانیم تصاویر دلخواه خود را تولید کنیم. این ابزارها تأثیر بزرگی در صنعت تصویرسازی دارند و همه‌جا می‌توان آن‌ها را مشاهده کرد؛ برای مثال در کتاب‌هایی که کاملاً توسط هوش مصنوعی تصویرسازی شده‌اند یا در تصاویر ساخته‌شده توسط هوش مصنوعی که در رقابت‌های تصویرسازی « Colorado State Fair's fine arts competition» برنده شده‌اند و شکایت دیگر هنرمندان شرکت‌کننده در این رقابت را هم به همراه داشته‌اند. حتی چنین تصاویری در گالری‌های هنری به نمایش درآمده و با قیمت‌های قابل توجهی به فروش رفته‌اند.

شبکه‌هایی هم برای کسب درآمد از این روش ایجاد شده‌اند. در مورد ارزش هنری و حقوقی تصاویر ساخته‌شده بحث‌های بسیاری وجود دارد. این شبکه‌ها برای آموزش و توسعۀ خود از میلیون‌ها تصویر موجود در اینترنت که شامل کپی‌رایت می‌شوند، استفاده می‌کنند. به همین دلیل مشخص نیست صاحب معنوی و تولیدکنندۀ واقعی اثر کیست؛ توسعه‌دهندۀ ربات که صدها هزار دلار برای آن هزینه کرده است یا شخصی که از ابزار استفاده کرده و با کمک آن دست به تولید یک اثر هنری زده است.

این ابزارها به‌زودی در تمام ابعاد زندگی ما نفوذ خواهند کرد و بخشی از حیات روزمرۀ ما خواهند شد. مانند تابلوهایی که به دیوار خانه‌ها آویزان می‌شوند و کتاب‌های مصور و حتی هوش مصنوعی‌های جدیدتر که قادر خواهند بود صدا و فیلم هم خلق کنند و به‌زودی ممکن است بخش بزرگی از رسانه از تولیدات این ابزارها باشد.

[1] الگوریتم‌های بر پایۀ هوش مصنوعی برای ارتباط بهتر زبان طبیعی انسان و کامپیوتر

[2] مدل یادگیری ماشین به‌صورت قراردادن دو شبکۀ هوش مصنوعی به شکل رقابتی در کنار هم برای بالابردن دقت شبکه

خمش محور ۳۰ شماره ۲ دی‌ماه محمد خدمتی

انجمن علمی دانشکدۀ مکانیک شریف (محور)

صفحۀ نوشته‌های رسانه‌ای گروه محور - تأسیس ۱۳۷۲ - «محورِ فعالیت‌های دانشجویی دانشکدۀ مکانیک»

شاید از این پست‌ها خوشتان بیاید