وقتی یادگیری ماشین همراه میشود با هنر سورئالیستی و بعد با رِدیت، آنوقت است که به Dall-E mini [با نام بعدی Craiyon] میرسیم.
نویسنده: کای مکنامی
منبع: npr.org
[توضیح مترجم: من قصد دارم (و در عمرم از این قصدهای نافرجام زیاد داشتهام) که ده مقاله دربارهی آثار هنریِ آفریدهی هوش مصنوعی ترجمه کنم و در اینترنت منتشر کنم تا اگر استقبالی از آنها شد، به فکر کار جدیتری در همین رابطه بیفتم. این دومین مقاله است. مقالهی اول را از اینجا بخوانید.]
دال-ای مینی همان هوش مصنوعیای است که جواب تمام «اگر اونطوری میشد، چطوری میشد؟»هایی را که هیچوقت به زبان نیاورده بودید میدهد: اگر ولدمورت عضو گرین دی [2] بود، چطوری میشد؟ اگر در موردور مکدونالد وجود داشت، چطوری میشد؟ اگر دانشمندان به تهِ گودال ماریانا[3] یک رومبا[4] میفرستادند، چطوری میشد؟
دیگر نیازی نیست که به دنبال جواب این سوال بگردید که اگر یک رومبا برود و ته گودال ماریانا را جارو کند، چطوری میشود. Dall-E mini جواب را به شما نشان میدهد.
دال-ای مینی آفرینشگر[5] آنلاینِ تبدیلِ-متن-به-تصویری است که در این چند هفتهی اخیر رسانههای اجتماعی را با محبوبیتش ترکانده.
این برنامه یک عبارت متنی را میگیرد -مثلاً «غروب در کوهستان»، «برج ایفل در ماه»، «اوباما در حال ساخت قصر شنی»، یا هر چیز دیگری که به ذهنتان امکان خطور دارد- و بعد طبق این متن تصویری میسازد.
نتیجه گاهی زیبایی غریبی دارد، مثل «بودای سینثوِیو[6]»، یا «ناگت مرغی که در باران سیگار میکشد». بعضی دیگر هم، مثلاً «توپولوها[7] در خانهی سالمندان»، واقعاً ترسناکاند.
دال-ای مینی وقتی رسوای اینترنت شد که کاربران رسانههای اجتماعی شروع کردند به استفاده از آن برای دستورزی با شمایلهای شناختهشدهی فرهنگ عوام و تبدیل آنها به میمهای[8] شِبهِ عکس[9].
بوریس دایْما[10] -که مهندس کامپیوتر و مستقر در تگزاس است- Dall-E mini را ساخت تا با آن در یک رقابت کدنویسی شرکت کند. نام برنامهای که دایْما نوشت از هوش مصنوعیای گرفته شده که این برنامه براساس آن ساخته شده. Dall-E mini الهامگرفته است از Dall-E که ساختهی فوقالعاده قدرتمند شرکت هوش مصنوعیِ OpenAIاست. دال-ای مینی اساساً اپلیکشن تحت وبی است که همان تکنولوژی را، اما با دسترسی آسانتر، به اجرا میگذارد. (دایْما مدتی است که به درخواست شرکت OpenAI نام Dall-E mini را به Craiyon تغییر داده است.)
شرکت OpenAI بیشتر دسترسیها به مدل خودش را محدود کرده است، اما هرکسی در اینترنت میتواند از مدل دایْما استفاده کند، ضمن اینکه این مدل با همکاری انجمنهای (یا باهمادهای)[11] تحقیقاتی هوش مصنوعی در توییتر و گیتهاب پرورانده[12] شده است.
دایْما تلفنی به ما [NPR یا National Public Radio] گفت: «من بازخوردها و پیشنهادهای جالبی از باهماد هوش مصنوعی دریافت کردهام.» و این مدل در آفرینش تصاویر «هر روز بهتر و بهتر و بهتر شد» تا به جایی رسید که دایْما از آن با عنوان «آستانهی همهگیری[13]» یاد میکند.
تصاویری که دال-ای مینی تولید میکند شاید هنوز ناشفاف یا بدشکل باشد، اما دایْما میگوید که این مدل به نقطهای رسیده که تصاویرش همواره بهاندازهی کافی خوب هستند، ضمن اینکه این مدل مخاطب کافی پیدا کرده، و شرایط برای اینکه این پروژه همهگیر شود مناسب بوده است.
درسگرفتن از گذشته، و [مواجهه با] آیندهای پیچیده
دال-ای مینی بهلحاظ قابلیت دسترسی عمومی به آن بیهمتا است، اما این اولینبار نیست که آثار آفریدهی هوش مصنوعی در صدر اخبار قرار میگیرند.
در سال ۲۰۱۸، کریستیز -خانهی حراج آثار هنری- پرترهای آفریدهی هوش مصنوعی را بیش از ۴۰۰هزار دلار فروخت.
زیو اپستین[14] -که محققی است در گروه پویاییهای انسانی متعلق به آزمایشگاه رسانهی امآیتی[۱۵]- میگوید پیشرفتهایی که در حوزهی آفرینشگرهای مبتنی بر هوش مصنوعی صورت گرفته باعث شده برداشتها دربارهی موضوع مالکیت در بخش هنر پیچیده شود.
در مورد مدلهای مبتنی بر یادگیری ماشینی، مثل همین دال-ای مینی، وقتی میخواهیم شریکان دخیل در ساخت قطعهای هنری را در نظر بگیریم، تعداد کسانی که اثر را باید به آنها منتسب کرد زیاد میشود.
اپستین به ما گفت: «این ابزارها همان سیستمهای غیرمتمرکز اجتماعی-فنآورانه هستند. (آفرینش آثار هوش مصنوعی) باعث بغرنجشدن نظامِ[16] [میان] عاملان انسانی و فرایندهای محاسباتی میشود.»
اول کدنویسهایی قرار دارند که این مدل را ساختهاند.
در مورد دال-ای مینی، کدنویس اصلی خود دایْما است، اما اعضایی از اجتماعِ (یا باهمادِ) متنبازِ هوش مصنوعی نیز هستند که در این پروژه همکاری کردهاند. بعد هم صاحبان تصاویری هستند که هوش مصنوعی با آن تصاویر تعلیم دیده است. دایْما از مجموعه عکسی موجود استفاده کرد تا مدلش را تنظیم دقیق کند، یعنی که اصلاً به برنامه یاد بدهد چگونه متن را به تصویر ترجمه کند.
در آخر، کاربری است که با پیاموارهی (پرامپت[17]) متنی سر میرسد -پیاموارهای مثل این: «تصویری از دوربین مداربسته از دارثویدر[18] در حال دزدیدن یک تکچرخه»- و از آن در دال-ای مینی استفاده میکند. لذا سخت است که بگوییم چه کسی صاحب عکسی است که در آن گامبی[19] در حال اجرای کنسرتی در پشت میز کوچک در NPR است[20].
بعضی از سازندگان[21]دربارهی استلزامات اخلاقی آفرینشگرهای رسانهای مبتنی بر هوش مصنوعی نیز نگرانیهایی دارند.
دیپفیک[22] (یا جعل عمیق) یعنی مدلهای مبتنی بر یادگیری ماشینی را بهصورت قابل باوری به کار ببرید و تصاویری جعلی از سیاستمداران یا سلبریتیها ارائه دهید. مسالهی اصلی جیمز بتکر[23] -که مهندس نرمافزار است- همین موضوع است.
بتکر سازندهی تورتویز[24] [به معنای سنگپشت] است. تورتویز برنامهای است برای تبدیل متن به گفتار و از بعضی از آخرین تکنیکهای یادگیری ماشینی برای آفرینش گفتار براساس صدای منبع مورد نظر استفاده میکند.
بتکر تورتویز را از ابتدا در حاشیهی کارهایش شروع کرد و حالا میگوید که بهخاطر احتمال استفادههای نابهجای احتمالی انگیزهای برای ادامهی توسعهی[25] آن ندارد.
بتکر به ما چنین میگوید: «این چیزی است که من بهشدت دربارهی آن نگرانم. مردم سعی میکنند از دهان سیاستمدارها حرفهایی را دربیاورند که واقعاً نگفتهاند، یا حتی استشهادهایی برای ارائه در دادگاه درست کنند.»
اما دسترسی آسانی که پروژههایی مثل پروژهی دایْما و پروژهی بتکر فراهم میآورند اثرات مثبتی هم داشته است. تورتویز پیش پای سازندگانی[26] که توان استخدام صداپیشه ندارند راهی گذاشته است تا برای پروژههایشان صداهای-روی-کار[27] واقعی درست کنند. همینطور، دایْما میگوید که کسبوکارهای کوچک وقتی نمیتوانند طراح به کار بگیرند از دال-ای مینی برای آفرینش کارهای گرافیکی استفاده میکنند.
همچنین، هرچقدر دسترسی به ابزارهای هوش مصنوعی آسانتر شود شاید مردم بیشتر با خطرات احتمالی رسانههای آفریدهی هوش مصنوعی آشنا شوند. برای دایْما و بتکر، هر چقدر دسترسی به پروژههایشان آسانتر شود، قابلیتهای بهسرعت رو-به-پیشرفتِ هوش مصنوعی و توانایی آن در پخش اطلاعات نادرست هم برای مردم آشکارتر میشود.
اپستین از MIT نیز همین را میگوید: «اگر مردم بتوانند با هوش مصنوعی تعامل کنند و یکجورهایی خودشان تبدیل با خالق [آثار هنری] شوند، آنوقت، شاید، این خودش یکجورهایی باعث واکسینهشدن آنها در برابر اطلاعات غلط بشود.»
پانویسها
[1] تیتر از مترجم است. زیرتیتر همان تیتر اصلی مقاله است.
[2] Green Day یک گروه آهنگسازی پانک-پاپ، که در سال ۲۰۰۴ به خاطر آلبوم American Idiot یا «نادان آمریکایی» برندهی جایزهی گرمی شد.
[3] Mariana Trench عمیقترین گودال جهان واقع در اقیانوس آرام.
[4] Roomba جاروبرقی روبوتیک، محصول شرکت iRobot، که از سال ۲۰۰۲ به بازار عرضه شده است.
generator[5]
[6] synthwave buddha
[7] Teletubbies
[8] memes
[9] photorealistic
[10] Boris Dayma. برای اینکه نام او اشتباهاً «دائماً» خوانده نشود، در تمام متن نام او را با علامت ساکن روی ی مینویسم، یعنی این شکلی: «دایْما».
[11] Communities. کامیونیتی را «اجتماع» ترجمه میکنند. اما اجتماع معنای رسایی ندارد و در فهم عموم تمایزی با «جامعه» ندارد. در کتاب فلسفهی سیاسی نوشتهی آدام سویفت، مترجم کتاب، آقای پویا موحد، از واژهی «باهماد» استفاده کردهاند و تقدم در این کار را به آقای خشایار دیهیمی نسبت دادهاند. این واژه هنوز جا نیفتاده است، بااینحال، من در ادامه از همین واژه استفاده میکنم.
[12] Developed. در بسیاری از ترجمهها از اولین کلمهای که در لغتنامهها روبهروی واژهی انگلیسی نوشته شده استفاده میکنند و واژهی «دولوپ» از این لحاظ به سرنوشت شومی دچار شده و همیشه و در هر نوع متنی آن را به «توسعه» معنا میکنند. الان رسماً در متون کامپیوتری همهجا از «توسعهدهندگان» نام برده میشود، اما اینکه این توسعهدهندگان چه چیزی را «وسعت» میدهند چندان معلوم نیست.
[13] A viral threshold
[14] Ziv Epstein
[15] MIT Media Lab’s Human Dynamics Group
[16] arrangment
[17] prompt
[18] Darth Vader شخصیت مشهور مجموعه فیلمهای جنگ ستارگان.
[19] Gumby گویا شخصیت اصلی در مجموعهای انیمیشنی به همین نام در آمریکا است.
[20] در صورت علاقه به «کنسرت در پشت میز کوچک NPR» یا NPR Tiny Desk concert به این لینک ویکیپدیا مراجعه بفرمایید. من خودم علاقهای نداشتم. https://en.wikipedia.org/wiki/Tiny_Desk_Concerts
[21] developers
[22] deepfake
[23] James Betker
[24] Tortoise
[25] بله. خیاط در کوزه افتاد. چارهای جز استفاده از واژهی «توسعه» در برابر develop نداشتم.
[26] developers
[27] Voice-overs