خواندن ۶ دقیقه·۲ سال پیش

هنرنمایی سیلیکونی

آیا تا به حال یک خرس در حال گیتار زدن دیده‌اید؟ یا یک کوالا که اسلم دانک می‌زند؟! یا قوری‌های عضلانی؟ یا دلفینی در حال فضانوردی در کنار سیاره زحل؟ احتمالا که نه، قطعا نه! اما Dall-E 2 یک سیستم هوش مصنوعی جدید است که می‌تواند یک جمله مثل «یک کوالا در حال اسلم دانک» را به یک تصویر واقعی تبدیل کند. تصویری که کاملا ساختگی به کمک هوش مصنوعی‌ست و در عین حال، مثل یک عکس، طبیعی‌ست. البته اگر از آن خواسته باشید به شما عکس تحویل بدهد، وگرنه در انواع تکنیک‌های نقاشی هم این سیستم هوش مصنوعی زبردست است.

چند سالی هست که هوش مصنوعی در حوزه‌های مختلفی وارد شده؛ در پزشکی، با پردازش تصاویر سی‌تی‌اسکن، به تشخیص تومور کمک می‌کند یا در دوربین‌های امنیتی شناسایی افراد را بر عهده می‌گیرد، اما هنر، بحث متفاوتی‌ست. خلق یک اثر هنری، نیازمند ترکیبی از توانایی، خلاقیت و حس زیبایی‌شناختی‌ست. با صرف قرار گرفتن چند نوت کنار یکدیگر موسیقی ساخته، با رنگی کردن چند پیکسل نقاشی کشیده و با چیده شدن چند کلمه پشت سر هم، شعر سروده نمی‌شود.

شاید نام گروه Open AI را شنیده باشید؛ گروهی تحقیقاتی که روی پروژه‌های هوش مصنوعی کار می‌کند و هدف خودش را توسعه هوش مصنوعی بی‌ضرر برای خدمت به بشریت اعلام کرده و نتایج تحقیقات و پتنت‌هایش را نیز به صورت عمومی انتشار می‌دهد. البته Open AI یک اشکال اصلی دارد و آن هم حضور ایلان ماسک در بین هم‌بنیان‌گذارانش است، هرچند خوش‌بختانه بعدا از آن جدا شد.

در آپریل ۲۰۲۲، آنها از پروژه‌ای رونمایی کردند که می‌تواند تقریبا هر تصویری را بکشد و خلق کند. مشابه چنین پروژه‌ای پیش‌تر هم وجود داشت، اما تفاوت این پروژه، زیبایی و قابل قبول بودن آن خروجی‌های از لحاظ هنری‌ست؛ رنگ‌ها و طرح‌ها طوری در کنار هم قرار گرفته‌اند که می‌توان به آن به چشم یک اثر هنری نگاه کرد.

پروژه Dall-E 2 نسخه دوم Dall-Eست که در ژانویه ۲۰۲۱ ارائه شد. نسخه قبلی، فقط محدود به طرح‌های کارتونی بود. تصاویر زیر، مربوط به یک صندلی آووکادو است که بالایی را Dall-E خلق کرده و پایینی کار نسخه به‌روزشده پروژه، یعنی Dall-E 2:

همان‌طور که در تصویر زیر مشخص است، Dall-E 2 می‌تواند عکس‌هایی با کیفیت بالا، کامل، واقعی، با عمق، با پس‌زمینه پیچیده و پر از جزئیات، مثل بازتاب‌ تصاویر در آب بسازد. تمام این‌کارها را نیز از نسخه قدیمی خود بسیار سریع‌تر انجام می‌دهد. Dall-E 2 فقط حدود ۱۰ ثانیه زمان نیاز دارد تا تصویر خروجی را تولید کند.

تصاویر زیر با متن ورودی «دختری که روی یک پله بی‌نهایت از جنس شیرینی روی ابرها راه می‌رود» ساخته شده است.

تصاویر پایین، نمونه‌های دیگری از هنرنمایی Dall-E 2 هستند.

تا این‌جا، شاید این‌طور تصور کرده باشید که Dall-E صرفا چند عکس را با هم ترکیب می‌کند و تبدیل به یک خروجی مرتبط با ورودی می‌کند، اما به تصویر پایین دقت کنید.

این تصویر، برای ورودی «دلفین با لباس فضانوردی در فضا» ساخته شده است. اگر در لایه‌های بنیانی‌تری به مراحل تولید این عکس فکر کنید، می‌بینید که Dall-E باید برای تولید این عکس، تصمیمات مختلفی بگیرد؛ مثل این که لباس فضانوردی برای یک دلفین چگونه خواهد بود؟ نور از جهتی می‌تابد؟ روی سیاره چه خطوط رنگی به‌خصوصی باید باشد؟ چه رنگ‌هایی در عکس باید به کار رود تا خروجی، تم رنگی زیبایی داشته باشد؟ این‌ها تصمیماتی‌ست که یک هنرمند هنگام نقاشی کشیدن نیز می‌گیرد.

تصویر پایین نمونه دیگری‌ست که برای متن ورودی «یک گربه‌ی ناپلئونی با پنیر در دست» تولید شده است.

چرا Dall-E این ژست را انتخاب کرده؟ از کجا متوجه تناسب رنگ‌های قرمز و زرد و سفید شده است؟ در یک شرکت تولید پنیر، برای دست‌یابی به چنین ایده‌ای، پول زیادی هزینه می‌شود تا به‌طور مثال از آن در یک پوستر استفاده شود، اما نکته جالب این‌جاست، که Dall-E چگونه پاسخ این سوالات برای طراحی یک عکس را پیدا می‌کند؟

پاسخ، در این عبارت است: پر کردن جاهای خالی! ورودی Dall-E، یک نوشته است که چیزی را توصیف می‌کند، اما نه به‌طور کامل و دقیق. عدم قطعیت، چیزی نیست که کامپیوترها به طور معمول به آن عادت داشته باشند و یا بتوانند آن را تحلیل کنند. Dall-E تلاش می‌کند تا عکس را به نوعی با المان‌هایی که در متن توضیح داده‌شده، پر کند.

همانطور که شاید به ذهن‌تان رسیده باشد، افراد زیادی بعد از خبر انتشار Dall-E 2، نسبت به آن اظهار نگرانی کردند. طراح‌های دیجیتال، هنرمندان و نقاشان از این افراد هستند. رسیدن به یک ایده برای طراحی یک پوستر، نقاشی، یا هر اثر هنری، از بخش‌های سخت و بعضا زمان‌بر آن است. این مرحله، جایی‌ست که چیزی فرای توانایی کار با قلم‌مو و رنگ می‌طلبد؛ جایی که نیازمند یک توانایی انسانی، به اسم ذوق هنری‌ست، تا سروکله‌اش پیدا و با خلاقیت ترکیب شود و طرحی نو شکل بگیرد، اما با Dall-E 2، به دست آوردن این ایده، حدود ۱۰ ثانیه زمان‌ می‌برد. کاربر می‌تواند به راحتی با نوشتن چند کلمه، طرح مورد نظر خود را توصیف کند و به سرعت چندین نمونه به دست بیاورد.

اگر اندکی با هوش مصنوعی و دنیای یادگیری ماشین آشنا باشید، می‌دانید که هر پروژه یادگیری ماشین، نیازمند یک دسته از داده‌هاست که برای یادگیری از آن استفاده می‌شود، به این صورت که با بررسی داده‌ها، از الگوهای موجود در آن‌ها استفاده می‌کند تا داده‌های جدیدی تولید کند. این داده‌ها می‌توانند پیش‌بینی آب‌وهوا، تشخیص سرطان و … باشن. خب، با این پیش‌زمینه درمورد یادگیری ماشین، انتظار داریم که Dall-E نیز با یادگیری روی تعداد بسیار زیادی از عکس‌ها، قابلیت طراحی‌های جدید را پیدا کرده باشد. اما نه!

همان‌طور که پیش‌تر گفتیم، Dall-E می‌تواند هر چیزی را بکشد. مسلما، هیچ مجموعه‌ای از تصاویر دلفین‌ها در فضا وجود ندارد، یا گربه‌هایی در لباس ناپلئون! پس نمی‌تواند این تصاویر از یک دسته تصویر که از قبل وجود داشته‌اند، به دست آمده باشد. خب، پس Dall-E چگونه این کار را می‌کند؟

پروژه Dall-E 2 از دو تکنولوژی که از سوی گروه Open AI توسعه یافته استفاده می‌کند. GPT-3 که قابلیت فهم نوشته‌های انسانی را دارد، یکی از آن‌هاست. سیستم GPT-3 می‌تواند نوشته شما را بخواند، آن را بفهمد و حتی پاسخی مناسب به شما بدهد تا یک مکالمه شکل گیرد. هم‌چنین می‌تواند یک متن طولانی گرفته و نسخه‌ای خلاصه از آن تحویل دهد.

تکنولوژی بعدی، Clip است. کلیپ، با بررسی تعداد زیادی عکس برچسب‌خورده، یاد می‌گیرد که با نشان دادن یک عکس، آن را توصیف کند. آن هم به زبان انسانی. تیم Open AI، این فرایند را معکوس کردند. به جای این‌که عکس را توصیف کنند، از توصیف یک تصویر استفاده می‌کنند تا تصویری مرتبط با آن بسازند. اما نکته مهم در ساخت یک عکس، زیبایی هنری آن است. تیم توسعه‌دهنده Dall-E 2، چیزهایی را که برای انسان‌ها از لحاظ هنری زیبا و خوشایند هستند، مدل کرده و آن را وارد فرایند یادگیری Dall-E 2 کرده‌اند. در واقع این کار با یادگیری رو یک مجموعه داده و پیش‌بینی نظر هنری انسان درمورد صورت گرفته است. در نهایت، سیستم این امکان را پیدا کرده تا همیشه تصاویری تولید کند که از نظر زیبایی‌شناختی، نه تنها قابل قبول، بلکه جالب و جذاب باشند.

البته، Dall-E 2 بدون نقص نیز نیست. گاهی اوقات تصاویر ایرادات جزئی دارند، یا مثلا توصیفات دقیق پیاده نمی‌شود. ممکن است زمانی که می‌گویید «یک مکعب قرمز بالای یک مکعب آبی»، ترتیب مکعب‌ها برعکس باشد. علاوه بر اینها، Dall-E 2 همچنان می‌تواند کارهای جدیدی بکند. دریای این چنین پروژه‌هایی، ساحل نزدیکی ندارد؛ به طور مثال، در پروژه‌های مشابهی دیده‌ایم که تصاویر ثابت، متحرک می‌شوند. گام بعدی می‌تواند ایجاد تصاویر زنده مرتبط با متن ورودی کاربر باشد.

عکس‌ها و نمونه‌های زیادی از Dall-E 2 وجود دارد که با جست‌وجو در اینترنت می‌توانید مشاهده‌شان کنید. البته که Dall-E 2 هنوز در دسترس عموم قرار نگرفته است. اگر می‌خواهید خودتان Dall-E را به چالش بکشید و آن را امتحان کنید،‌ باید در سایت گروه Open AI درخواست خود را ثبت کنید تا پس از بررسی، امکان استفاده از Dall-E به شما داده شود.

محمدحسین بهمنی

هوش مصنوعی یادگیری ماشین dalle2 open ai دانشگاه شریف

روزنامه شریف

روزنامه شریف/ اخبار راستکی دانشگاه صنعتی شریف را از روزنامه دنبال کنید.

شاید از این پست‌ها خوشتان بیاید