آیا تا به حال یک خرس در حال گیتار زدن دیدهاید؟ یا یک کوالا که اسلم دانک میزند؟! یا قوریهای عضلانی؟ یا دلفینی در حال فضانوردی در کنار سیاره زحل؟ احتمالا که نه، قطعا نه! اما Dall-E 2 یک سیستم هوش مصنوعی جدید است که میتواند یک جمله مثل «یک کوالا در حال اسلم دانک» را به یک تصویر واقعی تبدیل کند. تصویری که کاملا ساختگی به کمک هوش مصنوعیست و در عین حال، مثل یک عکس، طبیعیست. البته اگر از آن خواسته باشید به شما عکس تحویل بدهد، وگرنه در انواع تکنیکهای نقاشی هم این سیستم هوش مصنوعی زبردست است.
چند سالی هست که هوش مصنوعی در حوزههای مختلفی وارد شده؛ در پزشکی، با پردازش تصاویر سیتیاسکن، به تشخیص تومور کمک میکند یا در دوربینهای امنیتی شناسایی افراد را بر عهده میگیرد، اما هنر، بحث متفاوتیست. خلق یک اثر هنری، نیازمند ترکیبی از توانایی، خلاقیت و حس زیباییشناختیست. با صرف قرار گرفتن چند نوت کنار یکدیگر موسیقی ساخته، با رنگی کردن چند پیکسل نقاشی کشیده و با چیده شدن چند کلمه پشت سر هم، شعر سروده نمیشود.
شاید نام گروه Open AI را شنیده باشید؛ گروهی تحقیقاتی که روی پروژههای هوش مصنوعی کار میکند و هدف خودش را توسعه هوش مصنوعی بیضرر برای خدمت به بشریت اعلام کرده و نتایج تحقیقات و پتنتهایش را نیز به صورت عمومی انتشار میدهد. البته Open AI یک اشکال اصلی دارد و آن هم حضور ایلان ماسک در بین همبنیانگذارانش است، هرچند خوشبختانه بعدا از آن جدا شد.
در آپریل ۲۰۲۲، آنها از پروژهای رونمایی کردند که میتواند تقریبا هر تصویری را بکشد و خلق کند. مشابه چنین پروژهای پیشتر هم وجود داشت، اما تفاوت این پروژه، زیبایی و قابل قبول بودن آن خروجیهای از لحاظ هنریست؛ رنگها و طرحها طوری در کنار هم قرار گرفتهاند که میتوان به آن به چشم یک اثر هنری نگاه کرد.
پروژه Dall-E 2 نسخه دوم Dall-Eست که در ژانویه ۲۰۲۱ ارائه شد. نسخه قبلی، فقط محدود به طرحهای کارتونی بود. تصاویر زیر، مربوط به یک صندلی آووکادو است که بالایی را Dall-E خلق کرده و پایینی کار نسخه بهروزشده پروژه، یعنی Dall-E 2:
همانطور که در تصویر زیر مشخص است، Dall-E 2 میتواند عکسهایی با کیفیت بالا، کامل، واقعی، با عمق، با پسزمینه پیچیده و پر از جزئیات، مثل بازتاب تصاویر در آب بسازد. تمام اینکارها را نیز از نسخه قدیمی خود بسیار سریعتر انجام میدهد. Dall-E 2 فقط حدود ۱۰ ثانیه زمان نیاز دارد تا تصویر خروجی را تولید کند.
تصاویر زیر با متن ورودی «دختری که روی یک پله بینهایت از جنس شیرینی روی ابرها راه میرود» ساخته شده است.
تصاویر پایین، نمونههای دیگری از هنرنمایی Dall-E 2 هستند.
تا اینجا، شاید اینطور تصور کرده باشید که Dall-E صرفا چند عکس را با هم ترکیب میکند و تبدیل به یک خروجی مرتبط با ورودی میکند، اما به تصویر پایین دقت کنید.
این تصویر، برای ورودی «دلفین با لباس فضانوردی در فضا» ساخته شده است. اگر در لایههای بنیانیتری به مراحل تولید این عکس فکر کنید، میبینید که Dall-E باید برای تولید این عکس، تصمیمات مختلفی بگیرد؛ مثل این که لباس فضانوردی برای یک دلفین چگونه خواهد بود؟ نور از جهتی میتابد؟ روی سیاره چه خطوط رنگی بهخصوصی باید باشد؟ چه رنگهایی در عکس باید به کار رود تا خروجی، تم رنگی زیبایی داشته باشد؟ اینها تصمیماتیست که یک هنرمند هنگام نقاشی کشیدن نیز میگیرد.
تصویر پایین نمونه دیگریست که برای متن ورودی «یک گربهی ناپلئونی با پنیر در دست» تولید شده است.
چرا Dall-E این ژست را انتخاب کرده؟ از کجا متوجه تناسب رنگهای قرمز و زرد و سفید شده است؟ در یک شرکت تولید پنیر، برای دستیابی به چنین ایدهای، پول زیادی هزینه میشود تا بهطور مثال از آن در یک پوستر استفاده شود، اما نکته جالب اینجاست، که Dall-E چگونه پاسخ این سوالات برای طراحی یک عکس را پیدا میکند؟
پاسخ، در این عبارت است: پر کردن جاهای خالی! ورودی Dall-E، یک نوشته است که چیزی را توصیف میکند، اما نه بهطور کامل و دقیق. عدم قطعیت، چیزی نیست که کامپیوترها به طور معمول به آن عادت داشته باشند و یا بتوانند آن را تحلیل کنند. Dall-E تلاش میکند تا عکس را به نوعی با المانهایی که در متن توضیح دادهشده، پر کند.
همانطور که شاید به ذهنتان رسیده باشد، افراد زیادی بعد از خبر انتشار Dall-E 2، نسبت به آن اظهار نگرانی کردند. طراحهای دیجیتال، هنرمندان و نقاشان از این افراد هستند. رسیدن به یک ایده برای طراحی یک پوستر، نقاشی، یا هر اثر هنری، از بخشهای سخت و بعضا زمانبر آن است. این مرحله، جاییست که چیزی فرای توانایی کار با قلممو و رنگ میطلبد؛ جایی که نیازمند یک توانایی انسانی، به اسم ذوق هنریست، تا سروکلهاش پیدا و با خلاقیت ترکیب شود و طرحی نو شکل بگیرد، اما با Dall-E 2، به دست آوردن این ایده، حدود ۱۰ ثانیه زمان میبرد. کاربر میتواند به راحتی با نوشتن چند کلمه، طرح مورد نظر خود را توصیف کند و به سرعت چندین نمونه به دست بیاورد.
اگر اندکی با هوش مصنوعی و دنیای یادگیری ماشین آشنا باشید، میدانید که هر پروژه یادگیری ماشین، نیازمند یک دسته از دادههاست که برای یادگیری از آن استفاده میشود، به این صورت که با بررسی دادهها، از الگوهای موجود در آنها استفاده میکند تا دادههای جدیدی تولید کند. این دادهها میتوانند پیشبینی آبوهوا، تشخیص سرطان و … باشن. خب، با این پیشزمینه درمورد یادگیری ماشین، انتظار داریم که Dall-E نیز با یادگیری روی تعداد بسیار زیادی از عکسها، قابلیت طراحیهای جدید را پیدا کرده باشد. اما نه!
همانطور که پیشتر گفتیم، Dall-E میتواند هر چیزی را بکشد. مسلما، هیچ مجموعهای از تصاویر دلفینها در فضا وجود ندارد، یا گربههایی در لباس ناپلئون! پس نمیتواند این تصاویر از یک دسته تصویر که از قبل وجود داشتهاند، به دست آمده باشد. خب، پس Dall-E چگونه این کار را میکند؟
پروژه Dall-E 2 از دو تکنولوژی که از سوی گروه Open AI توسعه یافته استفاده میکند. GPT-3 که قابلیت فهم نوشتههای انسانی را دارد، یکی از آنهاست. سیستم GPT-3 میتواند نوشته شما را بخواند، آن را بفهمد و حتی پاسخی مناسب به شما بدهد تا یک مکالمه شکل گیرد. همچنین میتواند یک متن طولانی گرفته و نسخهای خلاصه از آن تحویل دهد.
تکنولوژی بعدی، Clip است. کلیپ، با بررسی تعداد زیادی عکس برچسبخورده، یاد میگیرد که با نشان دادن یک عکس، آن را توصیف کند. آن هم به زبان انسانی. تیم Open AI، این فرایند را معکوس کردند. به جای اینکه عکس را توصیف کنند، از توصیف یک تصویر استفاده میکنند تا تصویری مرتبط با آن بسازند. اما نکته مهم در ساخت یک عکس، زیبایی هنری آن است. تیم توسعهدهنده Dall-E 2، چیزهایی را که برای انسانها از لحاظ هنری زیبا و خوشایند هستند، مدل کرده و آن را وارد فرایند یادگیری Dall-E 2 کردهاند. در واقع این کار با یادگیری رو یک مجموعه داده و پیشبینی نظر هنری انسان درمورد صورت گرفته است. در نهایت، سیستم این امکان را پیدا کرده تا همیشه تصاویری تولید کند که از نظر زیباییشناختی، نه تنها قابل قبول، بلکه جالب و جذاب باشند.
البته، Dall-E 2 بدون نقص نیز نیست. گاهی اوقات تصاویر ایرادات جزئی دارند، یا مثلا توصیفات دقیق پیاده نمیشود. ممکن است زمانی که میگویید «یک مکعب قرمز بالای یک مکعب آبی»، ترتیب مکعبها برعکس باشد. علاوه بر اینها، Dall-E 2 همچنان میتواند کارهای جدیدی بکند. دریای این چنین پروژههایی، ساحل نزدیکی ندارد؛ به طور مثال، در پروژههای مشابهی دیدهایم که تصاویر ثابت، متحرک میشوند. گام بعدی میتواند ایجاد تصاویر زنده مرتبط با متن ورودی کاربر باشد.
عکسها و نمونههای زیادی از Dall-E 2 وجود دارد که با جستوجو در اینترنت میتوانید مشاهدهشان کنید. البته که Dall-E 2 هنوز در دسترس عموم قرار نگرفته است. اگر میخواهید خودتان Dall-E را به چالش بکشید و آن را امتحان کنید، باید در سایت گروه Open AI درخواست خود را ثبت کنید تا پس از بررسی، امکان استفاده از Dall-E به شما داده شود.