طاها ربانی
طاها ربانی
خواندن ۷ دقیقه·۲ سال پیش

هوش مصنوعی دال-ای مینی، ابزاری برای همگانی‌کردن هنر[1]

وقتی یادگیری ماشین همراه می‌شود با هنر سورئالیستی و بعد با رِدیت، آن‌وقت است که به Dall-E mini [با نام بعدی Craiyon] می‌رسیم.

نویسنده: کای مک‌نامی

منبع: npr.org

[توضیح مترجم: من قصد دارم (و در عمرم از این قصدهای نافرجام زیاد داشته‌ام) که ده مقاله درباره‌ی آثار هنریِ آفریده‌ی هوش مصنوعی ترجمه کنم و در اینترنت منتشر کنم تا اگر استقبالی از آن‌ها شد، به فکر کار جدی‌تری در همین رابطه بیفتم. این دومین مقاله است. مقاله‌ی اول را از اینجا بخوانید.]

بچه‌ها در حال پارکور
بچه‌ها در حال پارکور

دال-ای مینی همان هوش مصنوعی‌ای است که جواب تمام «اگر اون‌طوری می‌شد، چطوری می‌شد؟»هایی را که هیچ‌وقت به زبان نیاورده بودید می‌دهد: اگر ولدمورت عضو گرین دی [2] بود، چطوری می‌شد؟ اگر در موردور مک‌دونالد وجود داشت، چطوری می‌شد؟ اگر دانشمندان به تهِ گودال ماریانا[3] یک رومبا[4] می‌فرستادند، چطوری می‌شد؟

دیگر نیازی نیست که به دنبال جواب این سوال بگردید که اگر یک رومبا برود و ته گودال ماریانا را جارو کند، چطوری می‌شود. Dall-E mini جواب را به شما نشان می‌دهد.

رومبا در گودال ماریانا
رومبا در گودال ماریانا


دال-ای مینی آفرینشگر[5] آنلاینِ تبدیلِ-متن-به-تصویری است که در این چند هفته‌ی اخیر رسانه‌های اجتماعی را با محبوبیتش ترکانده.

این برنامه یک عبارت متنی را می‌گیرد -مثلاً «غروب در کوهستان»، «برج ایفل در ماه»، «اوباما در حال ساخت قصر شنی»، یا هر چیز دیگری که به ذهن‌تان امکان خطور دارد- و بعد طبق این متن تصویری می‌سازد.

نتیجه گاهی زیبایی غریبی دارد، مثل «بودای سینث‌وِیو[6]»، یا «ناگت مرغی که در باران سیگار می‌کشد». بعضی دیگر هم، مثلاً «توپولوها[7] در خانه‌ی سالمندان»، واقعاً ترسناک‌اند.

بودای سینث‌ویو یا مسیح ویپور-ویو؟ این تصویر را از لینک ارائه‌شده در مقاله‌ی اصلی پیدا کردم، ولی تازه الان دیدم که پیام‌واره‌ی بالای عکس با آنچه در متن گفته شده فرق دارد.مترجم
بودای سینث‌ویو یا مسیح ویپور-ویو؟ این تصویر را از لینک ارائه‌شده در مقاله‌ی اصلی پیدا کردم، ولی تازه الان دیدم که پیام‌واره‌ی بالای عکس با آنچه در متن گفته شده فرق دارد.مترجم


دال-ای مینی وقتی رسوای اینترنت شد که کاربران رسانه‌های اجتماعی شروع کردند به استفاده از آن برای دست‌ورزی با شمایل‌های شناخته‌شده‌ی فرهنگ عوام و تبدیل آن‌ها به میم‌های[8] شِبهِ عکس[9].

بوریس دایْما[10] -که مهندس کامپیوتر و مستقر در تگزاس است- Dall-E mini را ساخت تا با آن در یک رقابت کدنویسی شرکت کند. نام برنامه‌ای که دایْما نوشت از هوش مصنوعی‌ای گرفته شده که این برنامه براساس آن ساخته شده. Dall-E mini الهام‌گرفته است از Dall-E که ساخته‌ی فوق‌العاده قدرتمند شرکت هوش مصنوعیِ OpenAIاست. دال-ای مینی اساساً اپلیکشن تحت وبی است که همان تکنولوژی را، اما با دسترسی آسان‌تر، به اجرا می‌گذارد. (دایْما مدتی است که به درخواست شرکت OpenAI نام Dall-E mini را به Craiyon تغییر داده است.)

توپولوها در خانه‌ی سالمندان
توپولوها در خانه‌ی سالمندان

شرکت OpenAI بیشتر دسترسی‌ها به مدل خودش را محدود کرده است، اما هرکسی در اینترنت می‌تواند از مدل دایْما استفاده کند، ضمن اینکه این مدل با همکاری انجمن‌های (یا باهمادهای)[11] تحقیقاتی هوش مصنوعی در توییتر و گیت‌هاب پرورانده[12] شده است.

دایْما تلفنی به ما [NPR یا National Public Radio] گفت: «من بازخوردها و پیشنهادهای جالبی از باهماد هوش مصنوعی دریافت کرده‌ام.» و این مدل در آفرینش تصاویر «هر روز بهتر و بهتر و بهتر شد» تا به جایی رسید که دایْما از آن با عنوان «آستانه‌ی همه‌گیری[13]» یاد می‌کند.

تصاویری که دال-ای مینی تولید می‌کند شاید هنوز ناشفاف یا بدشکل باشد، اما دایْما می‌گوید که این مدل به نقطه‌ای رسیده که تصاویرش همواره به‌اندازه‌ی کافی خوب هستند، ضمن اینکه این مدل مخاطب کافی پیدا کرده، و شرایط برای اینکه این پروژه همه‌گیر شود مناسب بوده است.

درس‌گرفتن از گذشته، و [مواجهه با] آینده‌ای پیچیده

دال-ای مینی به‌لحاظ قابلیت دسترسی عمومی به آن بی‌همتا است، اما این اولین‌بار نیست که آثار آفریده‌ی هوش مصنوعی در صدر اخبار قرار می‌گیرند.

در سال ۲۰۱۸، کریستیز -خانه‌ی حراج آثار هنری- پرتره‌ای آفریده‌ی هوش مصنوعی را بیش از ۴۰۰هزار دلار فروخت.

زیو اپستین[14] -که محققی است در گروه پویایی‌های انسانی متعلق به آزمایشگاه رسانه‌ی ام‌آی‌تی[۱۵]- می‌گوید پیشرفت‌هایی که در حوزه‌ی آفرینشگرهای مبتنی بر هوش مصنوعی صورت گرفته باعث شده برداشت‌ها درباره‌ی موضوع مالکیت در بخش هنر پیچیده شود.

در مورد مدل‌های مبتنی بر یادگیری ماشینی، مثل همین دال-ای مینی، وقتی می‌خواهیم شریکان دخیل در ساخت قطعه‌ای هنری را در نظر بگیریم، تعداد کسانی که اثر را باید به آن‌ها منتسب کرد زیاد می‌شود.

اپستین به ما گفت: «این ابزارها همان سیستم‌های غیرمتمرکز اجتماعی-فن‌آورانه هستند. (آفرینش آثار هوش مصنوعی) باعث بغرنج‌شدن نظامِ[16] [میان] عاملان انسانی و فرایندهای محاسباتی می‌شود.»

اول کدنویس‌هایی قرار دارند که این مدل را ساخته‌اند.

در مورد دال-ای مینی، کدنویس اصلی خود دایْما است، اما اعضایی از اجتماعِ (یا باهمادِ) متن‌بازِ هوش مصنوعی نیز هستند که در این پروژه همکاری کرده‌اند. بعد هم صاحبان تصاویری هستند که هوش مصنوعی با آن تصاویر تعلیم دیده است. دایْما از مجموعه عکسی موجود استفاده کرد تا مدلش را تنظیم دقیق کند، یعنی که اصلاً به برنامه یاد بدهد چگونه متن را به تصویر ترجمه کند.

دارث‌ویدیر در حال دزدیدن یک تک‌چرخه
دارث‌ویدیر در حال دزدیدن یک تک‌چرخه


در آخر، کاربری است که با پیام‌واره‌ی (پرامپت[17]) متنی سر می‌رسد -پیام‌واره‌ای مثل این: «تصویری از دوربین مداربسته از دارث‌ویدر[18] در حال دزدیدن یک تک‌چرخه»- و از آن در دال-ای مینی استفاده می‌کند. لذا سخت است که بگوییم چه کسی صاحب عکسی است که در آن گامبی[19] در حال اجرای کنسرتی در پشت میز کوچک در NPR است[20].

کنسرت گامبی در پشت میز کوچک
کنسرت گامبی در پشت میز کوچک


بعضی از سازندگان[21]درباره‌ی استلزامات اخلاقی آفرینشگرهای رسانه‌ای مبتنی بر هوش مصنوعی نیز نگرانی‌هایی دارند.

دیپ‌فیک[22] (یا جعل عمیق) یعنی مدل‌های مبتنی بر یادگیری ماشینی را به‌صورت قابل باوری به کار ببرید و تصاویری جعلی از سیاستمداران یا سلبریتی‌ها ارائه دهید. مساله‌ی اصلی جیمز بتکر[23] -که مهندس نرم‌افزار است- همین موضوع است.

بتکر سازنده‌ی تورتویز[24] [به معنای سنگ‌پشت] است. تورتویز برنامه‌ای است برای تبدیل متن به گفتار و از بعضی از آخرین تکنیک‌های یادگیری ماشینی برای آفرینش گفتار براساس صدای منبع مورد نظر استفاده می‌کند.

بتکر تورتویز را از ابتدا در حاشیه‌ی کارهایش شروع کرد و حالا می‌گوید که به‌خاطر احتمال استفاده‌های نابه‌جای احتمالی انگیزه‌ای برای ادامه‌ی توسعه‌ی[25] آن ندارد.

بتکر به ما چنین می‌گوید: «این چیزی است که من به‌شدت درباره‌ی آن نگرانم. مردم سعی می‌کنند از دهان سیاستمدارها حرف‌هایی را دربیاورند که واقعاً نگفته‌اند، یا حتی استشهادهایی برای ارائه در دادگاه درست کنند.»

اما دسترسی آسانی که پروژه‌هایی مثل پروژه‌ی دایْما و پروژه‌ی بتکر فراهم می‌آورند اثرات مثبتی هم داشته است. تورتویز پیش پای سازندگانی[26] که توان استخدام صداپیشه ندارند راهی گذاشته است تا برای پروژه‌هایشان صداهای-روی-کار[27] واقعی درست کنند. همین‌طور، دایْما می‌گوید که کسب‌وکارهای کوچک وقتی نمی‌توانند طراح به کار بگیرند از دال-ای مینی برای آفرینش کارهای گرافیکی استفاده می‌کنند.

همچنین، هرچقدر دسترسی به ابزارهای هوش مصنوعی آسان‌تر شود شاید مردم بیشتر با خطرات احتمالی رسانه‌های آفریده‌ی هوش مصنوعی آشنا شوند. برای دایْما و بتکر، هر چقدر دسترسی به پروژه‌هایشان آسان‌تر شود، قابلیت‌های به‌سرعت رو-به-پیشرفتِ هوش مصنوعی و توانایی آن در پخش اطلاعات نادرست هم برای مردم آشکارتر می‌شود.

اپستین از MIT نیز همین را می‌گوید: «اگر مردم بتوانند با هوش مصنوعی تعامل کنند و یک‌جورهایی خودشان تبدیل با خالق [آثار هنری] شوند، آن‌وقت، شاید، این خودش یک‌جورهایی باعث واکسینه‌شدن آن‌ها در برابر اطلاعات غلط بشود.»


پانویس‌ها

[1] تیتر از مترجم است. زیرتیتر همان تیتر اصلی مقاله است.

[2] Green Day یک گروه آهنگ‌سازی پانک-پاپ، که در سال ۲۰۰۴ به خاطر آلبوم American Idiot یا «نادان آمریکایی» برنده‌ی جایزه‌ی گرمی شد.

[3] Mariana Trench عمیق‌ترین گودال جهان واقع در اقیانوس آرام.

[4] Roomba جاروبرقی روبوتیک، محصول شرکت iRobot، که از سال ۲۰۰۲ به بازار عرضه شده است.

generator[5]

[6] synthwave buddha

[7] Teletubbies

[8] memes

[9] photorealistic

[10] Boris Dayma. برای اینکه نام او اشتباهاً «دائماً» خوانده نشود، در تمام متن نام او را با علامت ساکن روی ی می‌نویسم، یعنی این شکلی: «دایْما».

[11] Communities. کامیونیتی را «اجتماع» ترجمه می‌کنند. اما اجتماع معنای رسایی ندارد و در فهم عموم تمایزی با «جامعه» ندارد. در کتاب فلسفه‌ی سیاسی نوشته‌ی آدام سویفت، مترجم کتاب، آقای پویا موحد، از واژه‌ی «باهماد» استفاده کرده‌اند و تقدم در این کار را به آقای خشایار دیهیمی نسبت داده‌اند. این واژه هنوز جا نیفتاده است، بااین‌حال، من در ادامه از همین واژه استفاده می‌کنم.

[12] Developed. در بسیاری از ترجمه‌ها از اولین کلمه‌ای که در لغت‌نامه‌ها روبه‌روی واژه‌ی انگلیسی نوشته شده استفاده می‌کنند و واژه‌ی «دولوپ» از این لحاظ به سرنوشت شومی دچار شده و همیشه و در هر نوع متنی آن را به «توسعه» معنا می‌کنند. الان رسماً در متون کامپیوتری همه‌جا از «توسعه‌دهندگان» نام برده می‌شود، اما اینکه این توسعه‌دهندگان چه چیزی را «وسعت» می‌دهند چندان معلوم نیست.

[13] A viral threshold

[14] Ziv Epstein

[15] MIT Media Lab’s Human Dynamics Group

[16] arrangment

[17] prompt

[18] Darth Vader شخصیت مشهور مجموعه فیلم‌های جنگ ستارگان.

[19] Gumby گویا شخصیت اصلی در مجموعه‌ای انیمیشنی به همین نام در آمریکا است.

[20] در صورت علاقه به «کنسرت در پشت میز کوچک NPR» یا NPR Tiny Desk concert به این لینک ویکی‌پدیا مراجعه بفرمایید. من خودم علاقه‌ای نداشتم. https://en.wikipedia.org/wiki/Tiny_Desk_Concerts

[21] developers

[22] deepfake

[23] James Betker

[24] Tortoise

[25] بله. خیاط در کوزه افتاد. چاره‌ای جز استفاده از واژه‌ی «توسعه» در برابر develop نداشتم.

[26] developers

[27] Voice-overs

هوش مصنوعییادگیری ماشینینقاشیهنرdall e
شاید از این پست‌ها خوشتان بیاید