دیپفیک ما را به کجا خواهد برد؟ خوب، بد، و زشت دیپفیکها
در یکی از صحنههای فیلم «اگه میتونی منو بگیر» ساخته استیون اسپیلبرگ، یک مامور FBI به نام کارل هنرتی در جستجوی کلاهبرداری به نام فرنک ابگنیل جونیور وارد اتاق او در هتل میشود. ابگنیل در همان حالتی که لوله تفنگ به سمت صورتش گرفته شده، وانمود میکند که مامور مخفی پلیس است و خودش هم دارد دنبال ابگنیل کلاهبردار میگردد. سرانجام ابگنیل موفق میشود سر هنرتی را شیره بمالد و درست جلوی چشمان حیرت زده او از چنگش دربرود. این فیلم که شخصیت اصلیاش مدام بین واقعیت و دروغ در تلاطم است، قصه بچه نابغهای است که مسیر بدی را در پیش گرفته است. این روزها همین قصه را داریم در رسانهها از نو زندگی میکنیم: همهما هنرتیهایی هستیم که تواناییمان برای تشخیص راست از دروغ، حقیقت از کلک، و درستکاری از بدبینی به بازی گرفته شده است. کلاهبردار این قصه اگر گفتید کیست؟ بله، دیپفیکها.
دیپفیک از کجا میآید؟
کلمه دیپفیک (Deepfake) ترکیبی است از Deep Learning و Fake. شاید قبلا سایت «این فرد وجود خارجی ندارد» را دیده باشید؛ این سایت با کمک هوش مصنوعی، عکس پروفایلهای آدمهایی را میسازد که هرگز وجود نداشتهاند. چطوری؟ با الگوریتم شبکه مولد تخاصمی (Generative Adversarial Network) یا به طور خلاصه، گَن (GAN). این الگوریتم خودش برای خودش یک پا «اگه میتونی منو بگیر» است و ابگنیل و هنرتی انحصاری خودش را دارد:
گَن یک بخش «مولد» دارد و یک بخش «ممیز». مثلا فرض کنید گَن قصه ما، یاد گرفته باشد تصویرهای دروغین از خلبانها بسازد. مولد یا همان ابگنیل قصه، دارد سعی میکند عکسهای تقلبی جعل کند. از آن طرف ممیز یا هنرتی داستان، عکسهای جعلی ساخت مولد و عکسهای واقعی را کنار هم میگذارد و به خودش یاد میدهد که عکس واقعی را از دروغی تشخیص دهد. هرچقدر که مدل گَن بیشتر یاد بگیرد، هر دو بخشهای مولد و ممیز هم در کارشان بهتر عمل میکنند و هرکدام باعث میشود دیگری در کار خودش ماهرتر شود. دیپفیکها جعلهایی هستند که مولد بلاخره توانسته از زیر دماغ ممیز رد کند!
بد: جعل، تحقیر، و دروغ
پیشرفت فناوری دیپفیک حالا به جاهای نگرانکنندهای رسیده است. نه فقط عکسهای تقلبی، که حالا میشود با این فناوری ویدیوهای فیک هم ساخت. خوشبختانه ویدیوهای دیپفیک هنوز در ابتدای مسیرند و هرکس بخواهد آنها را بسازد، باید فریم به فریم ادیتشان کند. علاوه بر این، بیشتر میشود تغییرات ظاهری ایجاد کرد نه حرکات واقعی. اما با همه اینها، همین دو سال پیش کاربر ناشناسی در ردیت با نام مستعار deepfakes، چهره گَل گَدو، بازیگر نقش واندر وومن را روی یک ویدیوی مستهجن گذاشت. کاربری دیگر در ردیت، اپی به نام فیکاپ ساخت که با آن میشد به سادگی ویدیوهای فیک ساخت و به اشتراک گذاشت. امروز دیگر جایگزین کردن چهره یک نفر در ویدیو با یکی دیگر نه تنها کار سختی نیست، که نتیجه آن هم تا حد خیلی خوبی غیر قابل تشخیص است.
فیلمسازی به نام جردن پیل (Jordan Peele) دیپفیکی ساخته که در آن باراک اوباما دارد در مورد خطرات دیپفیک هشدار میدهد.
در دنیایی که روزانه ۹۳ میلیون سلفی در آن گرفته میشود، تصور کردن انواع سوءاستفادهها و جرایمی که میشود با دیپفیک انجام داد، خیلی کار سختی نیست: ساخت ویدیوهای مستهجن برای انتقامگیری، باجگیری، سرقت هویت، پخش اخبار دروغ. تازه، اینها تنها چند مثال از انبوه گزینههای ممکن است. در قالب تئوری، تکتک افرادی که عکس خودشان را در شبکههای اجتماعی به اشتراک بگذارند در آینده در مقابل چنین حملاتی آسیبپذیر خواهد بود. ویدیوهایی مثل این سخنرانی فیک اوباما را با این فناوری میشود در انواع و اقسام تولید کرد، افرادی که مستعد گول خوردن هستند را با آنها به راحتی گول زد، و بعد اعضای جامعه دو قطبی امروز حتی بیشتر از قبل با هم دشمن میشوند. وقتی اینترنت و شبکههای اجتماعی بیسانسور و کنترل نشده ما سرشار از دیپفیک شوند، کل جامعه و زندگیهای خصوصی تکتک ما در خطر خواهد بود.
زشت: گرداب بیپایان رقابتها
مثل هر نوع یادگیری ماشینی و غیر ماشینی دیگر، برای ساختن دیپفیکهای واقعگرایانه هم اول باید داده کافی جمع کرد. اما این خیلی هم کار سادهای نیست. کوین روز (Kevin Roose)، یکی از نویسندگان ستون فناوری در نیویورک تایمز، تصمیم گرفت با دادن یک سری ویدیو از خودش به اپلیکیشن فیکاپ، خودش امتحان کند. دیپفیکی که او با این روش از خودش ساخت بامزه بود، اما آنقدر واقعی نبود که آدم را گول بزند. بنابراین به نظر میرسد که فعلا، فقط از اشخاص مشهور میشود دیپفیک «واقعی» ساخت؛ یعنی آنهایی که کلی ویدیوی باکیفیت ازشان در سطح وب وجود دارد. اما همین هم چیز کمی نیست؛ مثلا دیپفیک سیاستمداران میتواند بین صدها میلیون آدم دست به دست بچرخد و نتایج زیانباری برای وقایع سیاسی مهم داشته باشد؛ مثلا برای نتایج انتخابات ریاست جمهوری آمریکا در سال 2020.
احتمال بروز چنین اتفاقاتی، بار سنگینی بر دوش فناوریهای تشخیص و شکار دیپفیک گذاشته است. متخصصان مختلف دارند همه تلاششان را میکنند تا ابزارهای قدرتمندی برای تشخیص دیپفیک بسازند. مثلا پژوهشگران دانشگاه واشنگتن، سایت «کدام چهره واقعی است» را ساختهاند که در آن میتوانید بعد از خواندن مطلبی در مورد نحوه تشخیص تصاویر دیپفیک، سعی کنید بین یک سری عکسهای واقعی و جعلی، واقعیها را تشخیص دهید. کایل مکدانلد هم در یک پست وبلاگ در مورد همین مسئله توضیح داده است. گروهی از محققان یک دیتاست عظیم ویدیویی جمع کردهاند که قرار است در علوم قانونی (Forensics) برای تشخیص جعل عکس، نقش محک و معیار را داشته باشد. استارتاپ دیپتریس (Deeptrace)، مبارزه با خطرات سایبری دیپفیک را به عنوان هدف خود برگزیده و گزارشی در مورد وضعیت دیپفیک در سال 2018 ارائه کرده است. هنری فرید در دارتماوت دارد نرمافزاری برای شناسایی دیپفیکهای ویدیویی سیاسی میسازد. سیوی لیو با همکاری آژانس پروژههای پژوهشی پیشرفته دفاعی (دارپا)، در حال توسعه نرمافزاری است که بتواند دیپفیکهای ویدیویی را شناسایی کرده و از انتشار و رواج آنها جلوگیری کند.
همه اینها عالی است، اما مسئله اینجاست: دیپفیکها درست مثل ویروسهای کامپیوتری هستند. به محض اینکه یکی راه شناسایی ویروسی را پیدا کند، فوری یک نفر دیگر میآید و راهی برای دور زدن راهکار نفر قبلی پیدا میکند. این قایمموشکبازی بین جعلکنندهها و تشخیصدهندهها رقابتی است که تا ابد ادامه خواهد داشت. یک جورهایی، انگار خود این دو گروه با هم یک GAN عظیم و بیپایان میسازند!
خوب: هوش مصنوعی شبهانسانی و تعاملات ارتباطی نو
جهان پر از دیپفیک شاید مخوف و ناامن باشد؛ اما این تنها آینده ممکن نیست! دیپفیک کاربردهای مثبتی هم دارد؛ دیپفیک میتواند نحوه ارتباطات را دگرگون کند و شکلهای کاملا جدیدی از آن به وجود بیاورد. به عنوان مثال، تصور کنید فناوری تولید صدا با فناوری دیپفیک ترکیب شود! حتی همین حالا هم دستیار گوگل میتواند با استفاده از یک مدل مولد برای تولید گفتار به نام ویونت (Wavenet)، با لحن و صدای جان لجندصحبت کند. استارتاپهای لایربرد (Lyrebird)و ماجولیت (Modulate) میتوانند فقط با چند ساعت آموزش دیدن، یاد بگیرند مثل شما حرف بزنند! حتی فناوری بایدو (Baidu) میتواند تنها در 3.7 ثانیه صدای افراد را شبیهسازی کند. در آیندهای نه چندان دور، سخنگوهای هوشمندی خواهیم داشت که نه تنها میتوانند با صدای خوانندههای مورد علاقهمان صحبت کنند، که بلدند وقتی خودمان سر کار نیستیم، به جای ما جواب تلفن را بدهند!
حتی تولید ویدیوهای فیک هم الزاما چیز بدی نیست. شرکت سینتزیا (Synthesia) ، ویدیوی دیپفیکی از دیوید بکهام را برای یک کمپین حمایتی مالاریا تولید کرده است. استارتاپ دیتاگرید (DataGrid) توانسته تصویر کل بدن آدمهایی که وجود خارجی ندارند را کامل بسازد، و پژوهشگران دانشگاه برکلی کالیفرنیا با کمک دیپفیک توانستهاند حرکات مختلف رقص را روی بدن افراد مختلف اجرا کنند. حتی اخیرا موزه دالی در فلوریدا، به لطف دیپفیک توانسته این هنرمند سوررئالیست اسپانیایی را برای صحبت با بازدیدکنندگان از موزه به دنیا بازگرداند!
تصور کنید شخصیتهای تاریخیای که رویتان تاثیر گذاشتهاند با شما حرف بزنند. تصور کنید عزیزانی که از دنیا رفتهاند دوباره به پیشتان برگردند. و اگر هنوز دارید در آرزوی رفتن به دنیای هریپاتر میسوزید، تصور کنید همه آن پرترههای متحرک هاگوارتز واقعا وجود داشته باشند!
جمعبندی
فرنک ابگنیل فیلم «اگه میتونی منو بگیر»، یک شخصیت واقعی است که وقتی سرانجام از زندان آزاد شد، چهار دهه از عمرش را به کار کردن در FBI روی جعل، اختلاس، جرمهای مالی، و جرمهای امنیت سایبری گذراند. ابگنیل در سخنرانیای در گوگل گفته که «فناوری، زاینده جرم است. همیشه همین بوده و همیشه هم چنین خواهد بود». با اینحال، او میگوید که این هکرها نیستند که امنیت اطلاعات شرکتها را پایین میآورند؛ بلکه مقصر آن کارمندان سهلانگاری در آن شرکت هستند که کاری که قرار نبوده بکنند را کردهاند، یا اینکه نتوانستهاند کاری که قرار بوده بکنند را انجام دهند.
همین اتفاق برای دیپفیک هم میافتد: مهم نیست دیپفیکها چقدر واقعگرایانهتر شوند یا دقت فناوریهای ضد دیپفیک تا چه حد افزایش پیدا کند؛ آسیب اصلی ناشی از این دیپفیکها کار انسانهایی هست که آنها را میسازند، ساختههای دروغین را باور میکنند، و چیزی که بدون تحقیق، درست فرض کردهاند را نشر میدهند. به جای اینکه انگشت اتهام را به سمت خود فناوری دیپفیک بگیریم، باید ببینیم چطور میشود کاری کرد که افراد در مورد چیزهایی که در اینترنت میبینند با دید انتقادیتری قضاوت کنند و هنگام به اشتراکگذاری در شبکههای اجتماعی هوشمندانهتر عمل نمایند. اثرات منفی دیپفیک را نمیشود انکار کرد؛ اما باید چشمهایمان را به بخشهای مثبتتر هوش مصنوعی بدوزیم و پتانسیلی که دیپفیک برای ایجاد روشهای ارتباطی جدید و بهتر کردن زندگیهایمان دارد را به مسیر درست هدایت کنیم.
اگر به یادگیری کاربردهای هوش مصنوعی برای تحلیل داده علاقهمند شدید، پیشنهاد میکنیم سری هم به دوره جدید کوئراکالج، یعنی «دوره هوش مصنوعی و یادگیری ماشین» بزنید. این دوره با دادههای واقعی از شرکت پوشه و تمرینهای بسیار سر و کار دارد.
ترجمه بر اساس:
"Deepfake: The Good, The Bad and the Ugly" by Nahua Kang @ Twentybn Medium
کوئرامگ مجلهای تخصصی برای توسعهدهندگان است که هر هفته با مطلبهایی در زمینه تکنولوژی، رشد فردی و آینده برنامهنویسی بهروزرسانی میشود. برای اطلاع از آخرین مطلبهای ما، میتوانید توئیتر یا کانال تلگرام کوئرا را دنبال کنید.
مطلبی دیگر از این انتشارات
انقلاب پنج به هفت؛ داستان PHP (قسمت دوم)
مطلبی دیگر از این انتشارات
بهترین ویرایشگرهای متن حال حاضر برای برنامهنویسها
مطلبی دیگر از این انتشارات
بهبود دوره کوئرا کالج «برنامه نویسی پایتون پیشرفته و تفکر شیءگرا»