خواندن ۱۵ دقیقه·۱ سال پیش

آیا DeepFake فناوری آینده‌ای است یا یک تهدید؟ آیا خط میان واقعیت و ساختگی از بین خواهد رفت؟

با من به قلمرو DeepFake و Voice deepfake سفر کن.

" اون دختر بالاخره هیجکس نیست "

هیچکس !

" اون دختر بالاخره هیجکس نیست " این جمله خدای چهره ها "جگن هگار "در سریال "Game of Thrones" است . افراد !" no one " خدای چهره ها ("deepfake") و خدای صداها (Voice deepfake) ترسناکی او آنجا بیشتر می شود که با تغییر چهره صدای او هم تغییر میکند. شخصیتی که می توان گفت از پادشاه شب هم مرموز تر بود و هر لحظه در نقشی ظاهر می شد . اسیر ,سربازی نجات بخش و کشنده ,مردی سیاه پوست ,مردی که میمیرد اما زنده است! مرد بود یا زن ؟ با سکه ای که مجوز ورود به خانه "سیاه و سفید" معبد" افراد بی چهره "در براووس با چهره های از افراد مرده . چهره ی واقعی "جگن هگار " کدام بود ؟

در ادامه این مقاله با من همراه باشید که به دنیای Deepfake و Voice deepfake سفر کنیم و بررسی کنیم که چه اثرات و مزایا و معایبی میتونن داشته باشن. باید منتظر هرج و مرج باشیم ؟ مرز بین واقعیت و جعلی از بین خواهد رفت ؟

دیپ فیس(DeepFace) یا تشخیص چهره ؟

تشخیص چهره ! واژه ای که با شنیدن آن اکثرا به یاد فیلم های جنایی و داستان های جنایی می افتیم امروزه بیشتر با شنیدن این واژه مفهوم امنیت در ذهن ما تداعی می شود. به قرن نوزدهم می رویم در آن زمان، محققان از عکس‌های دو بعدی برای مقایسه چهره‌های افراد استفاده می‌کردند. که با دقت پایینی همراه بودند و اغلب منجر به خطای شناسایی می‌شدند. در دهه 1960، محققان شروع به استفاده از روش‌های جدیدی برای تشخیص چهره کردند. این روش‌ها از الگوریتم‌های ریاضی برای شناسایی ویژگی‌های چهره افراد استفاده می‌کردند .در دهه 1990، فناوری تشخیص چهره به سرعت توسعه یافت. این پیشرفت‌ها به دلیل ظهور پردازش تصویر دیجیتال و شبکه‌های عصبی مصنوعی بود.

تولد DeepFace (شناسایی عمیق چهره )

یک گروه تحقیقاتی در فیسبوک در سال 2014 شروع به توصعه deepface برای تشخیص چهره با عکس های دیجیتالی کرد و در سال 2015 برای اولین بار در کنفرانس سالانه IEEE CPVR مدلی برای تشخیص چهره با دقت 97.35 درصد ارائه شد و این به معنای آن بود که این الگوریتم توانسته است بهتر از انسان عمل کند چرا که دقت تشخیص انسان 97.00 درصد است. در سال 2018، فیس‌بوک اعلام کرد که DeepFace را با یک الگوریتم جدید به نام DeepFace2 جایگزین کرده است. DeepFace2 دقت بیشتری نسبت به DeepFace دارد و می‌تواند چهره‌ها را در شرایط مختلف، مانند نور کم یا زاویه‌های غیرعادی، شناسایی کند. در حالی که سیستم تشخیص چهره FBI با دقت 85 درصد است بیشترین دقت برای FaceNet گوگل با دقت 99.63 می باشد .

اما واقعا DeepFace چیه ؟ چه کاربردهایی داره ؟ چالش های اون چی میتونه باشه ؟ افراد “no one” یا Deepfake چه کسانی هستند ؟ این فناوری میتونه آینده وحشتناکی بسازه یا اون رو بهبود بده ؟ تفاوت Deepfake و Deepface چیه ؟ Voice deepfake هم میتونه خطراتی به اندازه خود Deepfake داشته باشه یا منفعت بیشتری داره ؟ از چه الگوریتم هایی برای این مدل ها استفاده میشه ؟ و چطور کار میکنن ؟ با من همراه باشید که که به این دنیا وارد شویم .

شناسایی عمیق چهره (DeepFace) چگونه کار میکند ؟

در واقع میتونیم بگیم که عملکرد deepface به این صورت هست که با استفاده از شبکه عصبی عمیق کار می کند شبکه عصبی عمیق در DeepFace یک Convolutional neural network (CNN) است. CNN یک نوع شبکه عصبی عمیق هستند که به ویژه برای وظایف تشخیص تصویر مناسب هستند. یک تصویر به مدل داده میشود که با استفاده از شبکه عصبی عمیق الگو های چهره را در تصویر شناسایی میکند با شناسایی الگو هایی مثل نقاط عطف چهره مانند : فاصله بین چشم‌ها، اندازه بینی، شکل دهان، فاصله بین گوش‌ها و نسبت بین اندازه چشم‌ها، اندازه بینی و اندازه دهان، زاویه بین چشم‌ها و همچنین خطوط روی پیشانی، چین و چروک‌های اطراف چشم‌ها.DeepFace این الگو ها را با الگوهایی که در داده های آموزشی یاد گرفته است مقایسه میکند و به محتمل ترین چهره ای که با الگو های شناسایی شده مطابقت دارد می رسد پس تفاوتی که با سیستم های قدیمی تشخیص چهره دارد اینگونه است که شما اگر قسمتی از چهره خود را هم پوشانده باشید قادر به تشخیص چهره شماست. در حالی که قبل از ظهور DeepFace در سیستم های تشخیص چهره فقط از ویژگی های کلی مانند فاصله چشم ها و اندازه بینی و دهان برای شناسایی چهره استفاده می شد که تحت تاثیر عواملی مثل زاویه دید نور و پوشاندن چهره تغییر می کرد و باعث اشتباه در تشخیص می شد با ظهور DeepFace دقت مدل ها بسیار بیشتر شد و این مشکلات برطرف گردید .

واقعی یا جعلی !

" کدام ویدئو ها از میدان نبرد واقعی است؟ "

در پلتفرم های ارز دیجیتال برای احراز هویت قبلا از عکس شخص با پاسپورت و همچنین تکه کاغذی که چیزی شبیه به تاریخ روز روی آن نوشته شده باشد استفاده می‌شد. که به راحتی با فتوشاپ قابل جعل کردن بود که با احراز با ویدئو جایگزین شد . آیا میتوان ویدئو را مانند عکس جعل کرد به طوری که قابل تشخیص نباشد ؟ یا میتوان باعث جعل در روند انتخابات شد؟ به انتخابات 2024 امریکا هم نزدیک میشویم . شما چه فکر می کنید ؟

آیینه !

این طرح توسط دوست خوب و هنرمندم بهزاد کهکی برای این مقاله کشیده شده است

تصور کنید جلوی آیینه ایستاده اید و در حال رقصیدن هستید . تصویر شما در حالت طبیعی در آیینه انعکاسی از شماست. حال اگر انعکاسی ببینید که اهنگ Lose YourSelf را میخواند (حرکات و لب خوانی Eminem را در موزیک ویدئو این اهنگ تصور کنید !) و در حال رقص hip-hop است در صورتیکه شما در حال رقص بالترو با اهنگ رقص The Swan Lake هستید!

" به سان جادوگری قهار است که به چهره شما نگاه می‌کند و می‌گوید: 'من تو را می‌شناسم!' تقریباً ترسناک است، اما چگونه این کار را انجام می‌دهد؟ "

دیپ فیک(Deepfake) یا " افراد بی چهره" !

اما واقعاً deepfake چیست؟ برای درک این موضوع، باید به سال 2017 برگردیم این واژه برای اولین بار زمانی به کار رفت . یک کاربر ناشناس Reddit یک زیردسته به نام " deepfake" ایجاد کرد.که حاوی ویدئوهای جعلی از پورنوگرافی افراد مشهور بود .این ویدئو ها با ابزار های هوش مصنوعی ایجاد شده بود. برای اینکه یک ویدئو deepfake واقعی به نظر برسد باید علاوه بر ویدئو دارای صدای بی نقص هم باشد. پس میتوان گفت که Voice Deepfake هم باید انجام شود . در تصویر بالا دخترک در آیینه همانند داده های تولید شده با شبکه های عصبی عمیق توسط الگوریتم GANs است. با این تفاوت که آیینه واقعی انعکاسی از خود شماست اما GANs داده های مصنوعی جدید تولید میکند! و از این وحشتناک تر اینکه آوایی که شما دارید با آوای انعکاس شما متفاوت است و اینجاست که مفهوم Voice deepfake را میتوان درک کرد.

الگوریتم های Deepfake

همانطور که در بالا اشاره شد . برای تشخیص چهره از شبکه های عصبی کانولوشنی Convolutional Neural Networks (CNNs) استفاده میشود اما در deepfake از generative adversarial networks (GANs) که برای Generator و Discriminator داده های جدید مصنوعی با ویژگی هایی شبیه به داده های واقعی است استفاده میشود که مراحل آن اینگونه است که :

1 . مولد (Generator)

مسئولیت اصلی مولد تولید داده‌های جدید و مصنوعی است. این شبکه با یادگیری از توزیع داده‌های واقعی، قادر خواهد بود داده‌های مشابه با آن‌ها را تولید کند.

2. داور (Discriminator)

مسئول ارزیابی داده‌ها است و تلاش می‌کند بین داده‌های واقعی و تولید شده توسط مولد تمایز ایجاد کند. داور به مولد بازخوردهایی می‌دهد که باعث می شود مولد بهبودهای لازم را در تولید داده‌ها ایجاد کند.

البته در مواجهه با چالش‌هایی مانند نویز که می‌تواند باعث شود GAN ها تصاویر یا صداهای مصنوعی تولید کنند که دارای نویز یا اختلالات بصری یا شنیداری شوند و قسمت های نامعلوم داده که شامل برخی از داده‌ها است که ممکن است دارای ویژگی‌هایی باشند که در داده‌های آموزشی دیده نشده‌اند و یادگیری دقیق از توزیع داده‌های واقعی، که ممکن است GANs دچار خطاها یا خروجی‌های ناپایدار شود. با من همراه باشید که در قسمت بعد به دنیای Voice Deepfake هم وارد شویم .

صدای دیپفیک (Voice Deepfake)

اولین تلاش ها برای Voice Deepfake به دهه 1960 بر میگردد که محققان از روش fast Fourier transform (FFT) برای ترکیب صداهای مختلف استفاده میکردند اما این روش ها دقت بالایی نداشت و صدای جعلی قابل تشخیص بود. اما در دهه 1990 با استفاده از مدل های یادگیری ماشین میتوانستند الگوهای صوتی را از داده های آموزشی یاد بگیرند این روش‌ها دقت بالاتری نسبت به روش‌های قبلی داشتند و صداهای جعلی تولید شده اغلب قابل تشخیص نبودند .

در دهه 2010، فناوری Voice Deepfake به طور جدی توسعه یافت. این پیشرفت‌ها به دلیل بهبود قدرت محاسباتی و الگوریتم‌های یادگیری ماشینی بود. در این دوره، محققان از روش‌های جدیدی مانند Discrete Cosine Transform (DCT) و Artificial Neural Networks (ANN) استفاده کردند. این روش‌ها دقت بالاتری نسبت به روش‌های قبلی داشتند و صداهای جعلی تولید شده اغلب غیرقابل تشخیص بودند.

فناوری Voice Deepfake یا کلونینگ صدا چگونه کار می‌کند؟

کلونینگ صدا (voice cloning) یا Voice deepfake برای تولید ویدئو Deepfake لازم است چرا که برای باور پذیری و واقعی بودن ویدئو صدای تولید شده هم باید مثل صدای همان فرد باشد.برای تولید صدای فیک یک فرد به داده های زیاد با ویژگی هایی مثل صداهای با سرعت، تن و بلندی مختلف برای اموزش مدل نیاز داریم هر چه جزییات بیشتر باشد مدل بهتر و دقیق تر می تواند یاد بگیرد و گاهی ممکن است این کار هفته ها طول بکشد در واقع الگوریتم های deepfake مجموعه داده‌های آموزشی معمولاً شامل صدا و متن افراد مشهور، سیاستمداران یا شخصیت‌های عمومی است. می‌توانند متن را به صدا یا صدا را به متن تبدیل کنند. کیفیت صدایی که تولید می‌کنند معمولاً بسیار خوب است و حتی برای افراد متخصص نیز دشوار است که بتوانند تشخیص دهند صدا واقعی است یا جعلی. فناوری (deepfake voice technology) خیلی کاربرد ها میتواند داشته باشد. اما نگرانی اصلی استفاده مخرب از ان برای تولید داده های فیک است .

سال 2017 تیتر بزرگی از سایتی با لوگوی معروف CNN با این خبر که پرفسور هاوکینگ نرم افزاری را توسعه داده که با مقداری کد نویسی میتوانید با موفقیت در بازار سهام معامله کنید ! با این شعار که ثروت را از 0.1 درصد به اکثریت توزیع میکند و از همه مهم تر خبر داری فیلمی از پرفسور هاوکینگ است با صدا و تصویر او که در مورد این محصول صحبت میکند .

نمونه ای از کارهایی که میتوان با deepfake انجام داد و خبرهای جعلی (ِfake news) را منتشر کرد که شاید چند ساعت هم روی خبرگذاری ها بماند میتواند آثار بسیار مخربی بر جای بگذارد.

الگوریتم های Voice Deepfake

الگوریتم‌های Voice Deepfake در حال توسعه مداوم هستند و از رویکردهای مختلفی برای تولید صداهای مصنوعی استفاده می‌کنند. برخی از الگوریتم‌های معروف عبارتند از:

1.الگوریتم WaveNet

-الگوریتم WaveNet از یک شبکه عصبی مصنوعی برای تولید صداهای با کیفیت بالا و به نظر واقعی استفاده می‌کند.

- به دلیل قابلیت‌های پیشرفته‌اش شناخته شده است و برای عملکرد بهینه ممکن است نیاز به داده‌های آموزشی گسترده داشته باشد.

2. شبکه‌های مولد مقابله‌ای (GAN)

-الگوریتن های GAN‌ از دو شبکه عصبی مصنوعی که با همکاری کار می‌کنند، برای تولید صداهای با کیفیت بالا استفاده می‌کنند.

- این الگوریتم می‌تواند صداهای با کیفیت استثنایی تولید کند، اما ممکن است نیاز به داده‌های آموزشی گسترده‌تری نسبت به WaveNet داشته باشد.

3. خودرمزگذار (Autoencoder )

- خودرمزگذار(Autoencoder) از یک شبکه عصبی مصنوعی برای یادگیری الگوهای صوتی استفاده می‌کند و می‌تواند صداهای با کیفیت متوسط را تولید کند.

- ممکن است نیاز به داده‌های آموزشی کمتری نسبت به الگوریتم‌های دیگر داشته باشد که این امر در برخی شرایط موثرتر است.

تکنولوژی Voice Deepfake یک حوزه نسبتاً جدید است و الگوریتم‌ها به سرعت در حال پیشرفت هستند. انتظار می‌رود تا توسعه‌های آینده منجر به الگوریتم‌های Voice Deepfake با کیفیت تر و با بهره ‌وری محاسباتی بیشتری شود.

چند نمونه از کاربرد های اصلی deepfake voice technology مانند :

1. اینفلوئنسرهای Deepfake یا اینفلوئنسرهای مجازی (virtual influencer)

- این شخصیت‌های مجازی که با عنوان "اینفلوئنسرهای Deepfake" یا "اینفلوئنسرهای مجازی" شناخته می‌شوند، می‌توانند برای اهداف متنوعی مانند تبلیغات، بازاریابی، سرگرمی یا آموزش مورد استفاده قرار گیرند. نمونه‌هایی از آن‌ها عبارتند از(Lil Miquela و Imma و Shudu Gram) که دنبال‌کنندگان قابل توجهی در فضای مجازی دارند.

2. تولید صدا برای ربات های انسان نما

- ربات‌های انسان‌نمای پیشرفته‌ای مانند Ameca که توسط Engineered Arts ساخته شده‌اند، از فناوری صوتی Deepfake برای تقلید عواطف و احساسات استفاده می‌کنند و به این ترتیب، توانایی آن‌ها برای تعامل با انسان‌ها را افزایش می‌دهند.

- سوفیا Sophia ربات انسان‌نمای دیگری است که توسط Hanson Robotics توسعه یافته و قابلیت‌های پیشرفته‌ای در تعاملات انسان‌گونه را به نمایش می‌گذارد.

3. شخصیت‌های تولید شده توسط کامپیوتر در بازی‌های ویدیویی

- فناوری صوتی Deepfake برای ایجاد شخصیت‌های تولید شده توسط کامپیوتر در بازی‌های ویدیویی و در نتیجه، بهبود تجربه بازی استفاده می‌شود. نمونه‌هایی از آن شامل شخصیت‌های بازی‌هایی مانند The Last of Us Part II، Cyberpunk 2077 و Horizon Forbidden West هستند.

4. دوبله فیلم با بازیگران صداپیشه مشهور

- این فناوری برای دوبله فیلم‌ها با صدای بازیگران مشهور در زبان‌های مختلف استفاده می‌شود و به این ترتیب، یک تجربه مشاهده‌ی باکیفیت و ثابت را برای مخاطبان در سراسر جهان تضمین می‌کند.

5. کتاب‌های صوتی و گویندگی (audiobooks, Voice-over)

- فناوری صوتی Deepfake کاربردهایی در تولید کتاب‌های صوتی و کارهای گویندگی پیدا کرده است، جایی که می‌توان از آن برای تولید صداهای مصنوعی اما واقعی‌گونه برای روایت و سایر محتواهای صوتی استفاده کرد.

این نمونه‌ها نشان می‌دهند که تکنولوژی صدای دیپفیک در حوزه‌های مختلفی از سرگرمی تا تعامل انسان-ربات و محلی‌سازی زبان در رسانه‌ها چقدر کاربردی است.

کنترل افکار !

با توجه به پیشرفت های فناوری و با مرور تاریخ میتوان به این نکته پی برد که مخصوصا در دنیای امروزی جلوی پیشرفت فناوری را نمی توان گرفت و می دانیم که هر وسیله و هر فناوری می‌تواند مانند شمشیر دو لبه عمل کند. اما به نظرم بزرگترین تهدیدی که میتوانند داده های جعلی در آینده داشته باشند "کنترل افکار "است . تصور کنید که اگر افکار در "جهات خاص" به کار گرفته شود چه خواهد شد ؟حتی ممکن است خودمان هم متوجه آن نشویم . همانطور که در دنیای امروز هم نمود هایی از آن را میتوان دید .

تولید داده های فیک در سطح جهانی و سمت و سو دادن به افکار در جهت کنترل آن پیامد هایی بسیار فاجعه بارتر از نگرانی ها برای از دست رفت شغل ها در آینده یا حتی سناریوهایی مثل کنترل ما توسط ماشین ها در آینده میتواند به بار بیاورد.

چه باید کرد؟

قطعا داشتن برنامه و تحقیقات و ارائه راهکار ها در زمان حال و تا قبل از وقوع خیلی از مشکلات میتواند تا حدودی از ضررهای پیش روی آینده انسان ها و ماشین جلوگیری کند .

حال این سوال مطرح می شود که آیا برای شکست دادن هیولا باید هیولا شویم ؟ آیا قوانینی که برای هوش مصنوعی وضع شده یا در آینده وضع شود می‌تواند کمی از نگرانی ها بکاهد؟ پاسخ به این سوال کمی دشوار است با توجه به اینکه در حال حاظر میتوان گفت در اوایل مسیر رشد AI هستیم و با رشد بسیار سریع و روزافزون AI قطعا نمیتوان آینده را پیش بینی کرد. اما میتوان برای ان پیشنهاد ها و راهکار هایی ارائه داد.

این راهکار ها میتواند شامل موارد زیر باشد:

- آموزش افرادی که " متخصص توسعه اپلیکیشن های تشخیص داده واقعی" برای تولید اپلیکیشن هایی که داده ی فیک را تشخیص دهند. مانند متخصصان تست و نفوذ که برای جلوگیری از هک سیستم باید با چگونگی نفوذ به شبکه کاملا آشنا باشند متخصصانی که کاملا داده غیر واقعی را بشناسند.

- میتوان به جای تمرکز روی تشخیص خود deepfake تمرکز را روی مکانیزم های امنیتی پیرامون آن ایجاد کرد. تا به اطلاعات موجود در خود deepfake وابسته نباشیم. به این معنی که تدابیر امنیتی را که در حال حاظر deepfake می تواند با چالش رو به رو کند را تغییر دهیم. مثلا استفاده از fast identity online (FIDO) که به کاربران اجازه دهد بدون نیاز به رمز عبورهای سنتی به خدمات آنلاین دسترسی پیدا کنند. می تواند به جلوگیری از استفاده نا به جا از deepfake برای احراز هویت کمک کند. FIDO از روش های احراز هویت بیومتریک مانند اثر انگشت، تشخیص چهره و اسکن عنبیه چشم استفاده می کند. این روش ها غیرقابل جعل هستند و می توانند به شناسایی افراد کمک کنند.

- در سطح بین المللی جرایمی برای استفاده مجرمانه از این قبیل فناوری ها وضع شود. یا قوانینی اتخاذ شود که محتوانی تولید شده توسط AI داری کد پیگیری باشد.

- فرمت فایل های تولید شده توسط AI مشخص شده باشد.

علیرغم تعریف قوانین قطعا احتمال بروز اعمال مجرمانه همچنان وجود دارد. همانطور که در حال حاظر هم با وجود تعاریف مشخص برای جرایم سایبری مختلف مانند هک کلاهبرداری های سایبری و سایر موارد باز هم اعمال مجرمانه انجام می شود. اما با وضع قوانین میتوان تا حدودی از هرج و مرج جلوگیری کرد. و به جای تلاش برای نادیده گرفتن یا تلاش برای توقف ان امری که میتوان گفت نشدنی هست به فکر راه های تعامل و گسترش زیرساخت های مناسب برای کمتر کردن مشکلات پیش رو بود .

ممنون از شما که در این مقاله با من همراه بودید و در دنیای deepfake سفر کردید .

مشاهده مقاله در medium

هوش مصنوعی در شناسایی دیپ فیک چه نقشی دارد؟

ماشین لرنینگکاربرد هوش مصنوعیدیپ لرنینگتشخیص چهره

محمد جواد نجادی

جونیور دیتاساینتیتست

شاید از این پست‌ها خوشتان بیاید