" اون دختر بالاخره هیجکس نیست "
" اون دختر بالاخره هیجکس نیست " این جمله خدای چهره ها "جگن هگار "در سریال "Game of Thrones" است . افراد !" no one " خدای چهره ها ("deepfake") و خدای صداها (Voice deepfake) ترسناکی او آنجا بیشتر می شود که با تغییر چهره صدای او هم تغییر میکند. شخصیتی که می توان گفت از پادشاه شب هم مرموز تر بود و هر لحظه در نقشی ظاهر می شد . اسیر ,سربازی نجات بخش و کشنده ,مردی سیاه پوست ,مردی که میمیرد اما زنده است! مرد بود یا زن ؟ با سکه ای که مجوز ورود به خانه "سیاه و سفید" معبد" افراد بی چهره "در براووس با چهره های از افراد مرده . چهره ی واقعی "جگن هگار " کدام بود ؟
در ادامه این مقاله با من همراه باشید که به دنیای Deepfake و Voice deepfake سفر کنیم و بررسی کنیم که چه اثرات و مزایا و معایبی میتونن داشته باشن. باید منتظر هرج و مرج باشیم ؟ مرز بین واقعیت و جعلی از بین خواهد رفت ؟
تشخیص چهره ! واژه ای که با شنیدن آن اکثرا به یاد فیلم های جنایی و داستان های جنایی می افتیم امروزه بیشتر با شنیدن این واژه مفهوم امنیت در ذهن ما تداعی می شود. به قرن نوزدهم می رویم در آن زمان، محققان از عکسهای دو بعدی برای مقایسه چهرههای افراد استفاده میکردند. که با دقت پایینی همراه بودند و اغلب منجر به خطای شناسایی میشدند. در دهه 1960، محققان شروع به استفاده از روشهای جدیدی برای تشخیص چهره کردند. این روشها از الگوریتمهای ریاضی برای شناسایی ویژگیهای چهره افراد استفاده میکردند .در دهه 1990، فناوری تشخیص چهره به سرعت توسعه یافت. این پیشرفتها به دلیل ظهور پردازش تصویر دیجیتال و شبکههای عصبی مصنوعی بود.
یک گروه تحقیقاتی در فیسبوک در سال 2014 شروع به توصعه deepface برای تشخیص چهره با عکس های دیجیتالی کرد و در سال 2015 برای اولین بار در کنفرانس سالانه IEEE CPVR مدلی برای تشخیص چهره با دقت 97.35 درصد ارائه شد و این به معنای آن بود که این الگوریتم توانسته است بهتر از انسان عمل کند چرا که دقت تشخیص انسان 97.00 درصد است. در سال 2018، فیسبوک اعلام کرد که DeepFace را با یک الگوریتم جدید به نام DeepFace2 جایگزین کرده است. DeepFace2 دقت بیشتری نسبت به DeepFace دارد و میتواند چهرهها را در شرایط مختلف، مانند نور کم یا زاویههای غیرعادی، شناسایی کند. در حالی که سیستم تشخیص چهره FBI با دقت 85 درصد است بیشترین دقت برای FaceNet گوگل با دقت 99.63 می باشد .
اما واقعا DeepFace چیه ؟ چه کاربردهایی داره ؟ چالش های اون چی میتونه باشه ؟ افراد “no one” یا Deepfake چه کسانی هستند ؟ این فناوری میتونه آینده وحشتناکی بسازه یا اون رو بهبود بده ؟ تفاوت Deepfake و Deepface چیه ؟ Voice deepfake هم میتونه خطراتی به اندازه خود Deepfake داشته باشه یا منفعت بیشتری داره ؟ از چه الگوریتم هایی برای این مدل ها استفاده میشه ؟ و چطور کار میکنن ؟ با من همراه باشید که که به این دنیا وارد شویم .
در واقع میتونیم بگیم که عملکرد deepface به این صورت هست که با استفاده از شبکه عصبی عمیق کار می کند شبکه عصبی عمیق در DeepFace یک Convolutional neural network (CNN) است. CNN یک نوع شبکه عصبی عمیق هستند که به ویژه برای وظایف تشخیص تصویر مناسب هستند. یک تصویر به مدل داده میشود که با استفاده از شبکه عصبی عمیق الگو های چهره را در تصویر شناسایی میکند با شناسایی الگو هایی مثل نقاط عطف چهره مانند : فاصله بین چشمها، اندازه بینی، شکل دهان، فاصله بین گوشها و نسبت بین اندازه چشمها، اندازه بینی و اندازه دهان، زاویه بین چشمها و همچنین خطوط روی پیشانی، چین و چروکهای اطراف چشمها.DeepFace این الگو ها را با الگوهایی که در داده های آموزشی یاد گرفته است مقایسه میکند و به محتمل ترین چهره ای که با الگو های شناسایی شده مطابقت دارد می رسد پس تفاوتی که با سیستم های قدیمی تشخیص چهره دارد اینگونه است که شما اگر قسمتی از چهره خود را هم پوشانده باشید قادر به تشخیص چهره شماست. در حالی که قبل از ظهور DeepFace در سیستم های تشخیص چهره فقط از ویژگی های کلی مانند فاصله چشم ها و اندازه بینی و دهان برای شناسایی چهره استفاده می شد که تحت تاثیر عواملی مثل زاویه دید نور و پوشاندن چهره تغییر می کرد و باعث اشتباه در تشخیص می شد با ظهور DeepFace دقت مدل ها بسیار بیشتر شد و این مشکلات برطرف گردید .
" کدام ویدئو ها از میدان نبرد واقعی است؟ "
در پلتفرم های ارز دیجیتال برای احراز هویت قبلا از عکس شخص با پاسپورت و همچنین تکه کاغذی که چیزی شبیه به تاریخ روز روی آن نوشته شده باشد استفاده میشد. که به راحتی با فتوشاپ قابل جعل کردن بود که با احراز با ویدئو جایگزین شد . آیا میتوان ویدئو را مانند عکس جعل کرد به طوری که قابل تشخیص نباشد ؟ یا میتوان باعث جعل در روند انتخابات شد؟ به انتخابات 2024 امریکا هم نزدیک میشویم . شما چه فکر می کنید ؟
تصور کنید جلوی آیینه ایستاده اید و در حال رقصیدن هستید . تصویر شما در حالت طبیعی در آیینه انعکاسی از شماست. حال اگر انعکاسی ببینید که اهنگ Lose YourSelf را میخواند (حرکات و لب خوانی Eminem را در موزیک ویدئو این اهنگ تصور کنید !) و در حال رقص hip-hop است در صورتیکه شما در حال رقص بالترو با اهنگ رقص The Swan Lake هستید!
" به سان جادوگری قهار است که به چهره شما نگاه میکند و میگوید: 'من تو را میشناسم!' تقریباً ترسناک است، اما چگونه این کار را انجام میدهد؟ "
اما واقعاً deepfake چیست؟ برای درک این موضوع، باید به سال 2017 برگردیم این واژه برای اولین بار زمانی به کار رفت . یک کاربر ناشناس Reddit یک زیردسته به نام " deepfake" ایجاد کرد.که حاوی ویدئوهای جعلی از پورنوگرافی افراد مشهور بود .این ویدئو ها با ابزار های هوش مصنوعی ایجاد شده بود. برای اینکه یک ویدئو deepfake واقعی به نظر برسد باید علاوه بر ویدئو دارای صدای بی نقص هم باشد. پس میتوان گفت که Voice Deepfake هم باید انجام شود . در تصویر بالا دخترک در آیینه همانند داده های تولید شده با شبکه های عصبی عمیق توسط الگوریتم GANs است. با این تفاوت که آیینه واقعی انعکاسی از خود شماست اما GANs داده های مصنوعی جدید تولید میکند! و از این وحشتناک تر اینکه آوایی که شما دارید با آوای انعکاس شما متفاوت است و اینجاست که مفهوم Voice deepfake را میتوان درک کرد.
همانطور که در بالا اشاره شد . برای تشخیص چهره از شبکه های عصبی کانولوشنی Convolutional Neural Networks (CNNs) استفاده میشود اما در deepfake از generative adversarial networks (GANs) که برای Generator و Discriminator داده های جدید مصنوعی با ویژگی هایی شبیه به داده های واقعی است استفاده میشود که مراحل آن اینگونه است که :
مسئولیت اصلی مولد تولید دادههای جدید و مصنوعی است. این شبکه با یادگیری از توزیع دادههای واقعی، قادر خواهد بود دادههای مشابه با آنها را تولید کند.
مسئول ارزیابی دادهها است و تلاش میکند بین دادههای واقعی و تولید شده توسط مولد تمایز ایجاد کند. داور به مولد بازخوردهایی میدهد که باعث می شود مولد بهبودهای لازم را در تولید دادهها ایجاد کند.
البته در مواجهه با چالشهایی مانند نویز که میتواند باعث شود GAN ها تصاویر یا صداهای مصنوعی تولید کنند که دارای نویز یا اختلالات بصری یا شنیداری شوند و قسمت های نامعلوم داده که شامل برخی از دادهها است که ممکن است دارای ویژگیهایی باشند که در دادههای آموزشی دیده نشدهاند و یادگیری دقیق از توزیع دادههای واقعی، که ممکن است GANs دچار خطاها یا خروجیهای ناپایدار شود. با من همراه باشید که در قسمت بعد به دنیای Voice Deepfake هم وارد شویم .
اولین تلاش ها برای Voice Deepfake به دهه 1960 بر میگردد که محققان از روش fast Fourier transform (FFT) برای ترکیب صداهای مختلف استفاده میکردند اما این روش ها دقت بالایی نداشت و صدای جعلی قابل تشخیص بود. اما در دهه 1990 با استفاده از مدل های یادگیری ماشین میتوانستند الگوهای صوتی را از داده های آموزشی یاد بگیرند این روشها دقت بالاتری نسبت به روشهای قبلی داشتند و صداهای جعلی تولید شده اغلب قابل تشخیص نبودند .
در دهه 2010، فناوری Voice Deepfake به طور جدی توسعه یافت. این پیشرفتها به دلیل بهبود قدرت محاسباتی و الگوریتمهای یادگیری ماشینی بود. در این دوره، محققان از روشهای جدیدی مانند Discrete Cosine Transform (DCT) و Artificial Neural Networks (ANN) استفاده کردند. این روشها دقت بالاتری نسبت به روشهای قبلی داشتند و صداهای جعلی تولید شده اغلب غیرقابل تشخیص بودند.
کلونینگ صدا (voice cloning) یا Voice deepfake برای تولید ویدئو Deepfake لازم است چرا که برای باور پذیری و واقعی بودن ویدئو صدای تولید شده هم باید مثل صدای همان فرد باشد.برای تولید صدای فیک یک فرد به داده های زیاد با ویژگی هایی مثل صداهای با سرعت، تن و بلندی مختلف برای اموزش مدل نیاز داریم هر چه جزییات بیشتر باشد مدل بهتر و دقیق تر می تواند یاد بگیرد و گاهی ممکن است این کار هفته ها طول بکشد در واقع الگوریتم های deepfake مجموعه دادههای آموزشی معمولاً شامل صدا و متن افراد مشهور، سیاستمداران یا شخصیتهای عمومی است. میتوانند متن را به صدا یا صدا را به متن تبدیل کنند. کیفیت صدایی که تولید میکنند معمولاً بسیار خوب است و حتی برای افراد متخصص نیز دشوار است که بتوانند تشخیص دهند صدا واقعی است یا جعلی. فناوری (deepfake voice technology) خیلی کاربرد ها میتواند داشته باشد. اما نگرانی اصلی استفاده مخرب از ان برای تولید داده های فیک است .
سال 2017 تیتر بزرگی از سایتی با لوگوی معروف CNN با این خبر که پرفسور هاوکینگ نرم افزاری را توسعه داده که با مقداری کد نویسی میتوانید با موفقیت در بازار سهام معامله کنید ! با این شعار که ثروت را از 0.1 درصد به اکثریت توزیع میکند و از همه مهم تر خبر داری فیلمی از پرفسور هاوکینگ است با صدا و تصویر او که در مورد این محصول صحبت میکند .
نمونه ای از کارهایی که میتوان با deepfake انجام داد و خبرهای جعلی (ِfake news) را منتشر کرد که شاید چند ساعت هم روی خبرگذاری ها بماند میتواند آثار بسیار مخربی بر جای بگذارد.
الگوریتمهای Voice Deepfake در حال توسعه مداوم هستند و از رویکردهای مختلفی برای تولید صداهای مصنوعی استفاده میکنند. برخی از الگوریتمهای معروف عبارتند از:
-الگوریتم WaveNet از یک شبکه عصبی مصنوعی برای تولید صداهای با کیفیت بالا و به نظر واقعی استفاده میکند.
- به دلیل قابلیتهای پیشرفتهاش شناخته شده است و برای عملکرد بهینه ممکن است نیاز به دادههای آموزشی گسترده داشته باشد.
-الگوریتن های GAN از دو شبکه عصبی مصنوعی که با همکاری کار میکنند، برای تولید صداهای با کیفیت بالا استفاده میکنند.
- این الگوریتم میتواند صداهای با کیفیت استثنایی تولید کند، اما ممکن است نیاز به دادههای آموزشی گستردهتری نسبت به WaveNet داشته باشد.
- خودرمزگذار(Autoencoder) از یک شبکه عصبی مصنوعی برای یادگیری الگوهای صوتی استفاده میکند و میتواند صداهای با کیفیت متوسط را تولید کند.
- ممکن است نیاز به دادههای آموزشی کمتری نسبت به الگوریتمهای دیگر داشته باشد که این امر در برخی شرایط موثرتر است.
تکنولوژی Voice Deepfake یک حوزه نسبتاً جدید است و الگوریتمها به سرعت در حال پیشرفت هستند. انتظار میرود تا توسعههای آینده منجر به الگوریتمهای Voice Deepfake با کیفیت تر و با بهره وری محاسباتی بیشتری شود.
- این شخصیتهای مجازی که با عنوان "اینفلوئنسرهای Deepfake" یا "اینفلوئنسرهای مجازی" شناخته میشوند، میتوانند برای اهداف متنوعی مانند تبلیغات، بازاریابی، سرگرمی یا آموزش مورد استفاده قرار گیرند. نمونههایی از آنها عبارتند از(Lil Miquela و Imma و Shudu Gram) که دنبالکنندگان قابل توجهی در فضای مجازی دارند.
- رباتهای انساننمای پیشرفتهای مانند Ameca که توسط Engineered Arts ساخته شدهاند، از فناوری صوتی Deepfake برای تقلید عواطف و احساسات استفاده میکنند و به این ترتیب، توانایی آنها برای تعامل با انسانها را افزایش میدهند.
- سوفیا Sophia ربات انساننمای دیگری است که توسط Hanson Robotics توسعه یافته و قابلیتهای پیشرفتهای در تعاملات انسانگونه را به نمایش میگذارد.
- فناوری صوتی Deepfake برای ایجاد شخصیتهای تولید شده توسط کامپیوتر در بازیهای ویدیویی و در نتیجه، بهبود تجربه بازی استفاده میشود. نمونههایی از آن شامل شخصیتهای بازیهایی مانند The Last of Us Part II، Cyberpunk 2077 و Horizon Forbidden West هستند.
- این فناوری برای دوبله فیلمها با صدای بازیگران مشهور در زبانهای مختلف استفاده میشود و به این ترتیب، یک تجربه مشاهدهی باکیفیت و ثابت را برای مخاطبان در سراسر جهان تضمین میکند.
5. کتابهای صوتی و گویندگی (audiobooks, Voice-over)
- فناوری صوتی Deepfake کاربردهایی در تولید کتابهای صوتی و کارهای گویندگی پیدا کرده است، جایی که میتوان از آن برای تولید صداهای مصنوعی اما واقعیگونه برای روایت و سایر محتواهای صوتی استفاده کرد.
این نمونهها نشان میدهند که تکنولوژی صدای دیپفیک در حوزههای مختلفی از سرگرمی تا تعامل انسان-ربات و محلیسازی زبان در رسانهها چقدر کاربردی است.
با توجه به پیشرفت های فناوری و با مرور تاریخ میتوان به این نکته پی برد که مخصوصا در دنیای امروزی جلوی پیشرفت فناوری را نمی توان گرفت و می دانیم که هر وسیله و هر فناوری میتواند مانند شمشیر دو لبه عمل کند. اما به نظرم بزرگترین تهدیدی که میتوانند داده های جعلی در آینده داشته باشند "کنترل افکار "است . تصور کنید که اگر افکار در "جهات خاص" به کار گرفته شود چه خواهد شد ؟حتی ممکن است خودمان هم متوجه آن نشویم . همانطور که در دنیای امروز هم نمود هایی از آن را میتوان دید .
تولید داده های فیک در سطح جهانی و سمت و سو دادن به افکار در جهت کنترل آن پیامد هایی بسیار فاجعه بارتر از نگرانی ها برای از دست رفت شغل ها در آینده یا حتی سناریوهایی مثل کنترل ما توسط ماشین ها در آینده میتواند به بار بیاورد.
قطعا داشتن برنامه و تحقیقات و ارائه راهکار ها در زمان حال و تا قبل از وقوع خیلی از مشکلات میتواند تا حدودی از ضررهای پیش روی آینده انسان ها و ماشین جلوگیری کند .
حال این سوال مطرح می شود که آیا برای شکست دادن هیولا باید هیولا شویم ؟ آیا قوانینی که برای هوش مصنوعی وضع شده یا در آینده وضع شود میتواند کمی از نگرانی ها بکاهد؟ پاسخ به این سوال کمی دشوار است با توجه به اینکه در حال حاظر میتوان گفت در اوایل مسیر رشد AI هستیم و با رشد بسیار سریع و روزافزون AI قطعا نمیتوان آینده را پیش بینی کرد. اما میتوان برای ان پیشنهاد ها و راهکار هایی ارائه داد.
- آموزش افرادی که " متخصص توسعه اپلیکیشن های تشخیص داده واقعی" برای تولید اپلیکیشن هایی که داده ی فیک را تشخیص دهند. مانند متخصصان تست و نفوذ که برای جلوگیری از هک سیستم باید با چگونگی نفوذ به شبکه کاملا آشنا باشند متخصصانی که کاملا داده غیر واقعی را بشناسند.
- میتوان به جای تمرکز روی تشخیص خود deepfake تمرکز را روی مکانیزم های امنیتی پیرامون آن ایجاد کرد. تا به اطلاعات موجود در خود deepfake وابسته نباشیم. به این معنی که تدابیر امنیتی را که در حال حاظر deepfake می تواند با چالش رو به رو کند را تغییر دهیم. مثلا استفاده از fast identity online (FIDO) که به کاربران اجازه دهد بدون نیاز به رمز عبورهای سنتی به خدمات آنلاین دسترسی پیدا کنند. می تواند به جلوگیری از استفاده نا به جا از deepfake برای احراز هویت کمک کند. FIDO از روش های احراز هویت بیومتریک مانند اثر انگشت، تشخیص چهره و اسکن عنبیه چشم استفاده می کند. این روش ها غیرقابل جعل هستند و می توانند به شناسایی افراد کمک کنند.
- در سطح بین المللی جرایمی برای استفاده مجرمانه از این قبیل فناوری ها وضع شود. یا قوانینی اتخاذ شود که محتوانی تولید شده توسط AI داری کد پیگیری باشد.
- فرمت فایل های تولید شده توسط AI مشخص شده باشد.
علیرغم تعریف قوانین قطعا احتمال بروز اعمال مجرمانه همچنان وجود دارد. همانطور که در حال حاظر هم با وجود تعاریف مشخص برای جرایم سایبری مختلف مانند هک کلاهبرداری های سایبری و سایر موارد باز هم اعمال مجرمانه انجام می شود. اما با وضع قوانین میتوان تا حدودی از هرج و مرج جلوگیری کرد. و به جای تلاش برای نادیده گرفتن یا تلاش برای توقف ان امری که میتوان گفت نشدنی هست به فکر راه های تعامل و گسترش زیرساخت های مناسب برای کمتر کردن مشکلات پیش رو بود .
ممنون از شما که در این مقاله با من همراه بودید و در دنیای deepfake سفر کردید .
هوش مصنوعی در شناسایی دیپ فیک چه نقشی دارد؟