حمیدرضا مازندرانی
حمیدرضا مازندرانی
خواندن ۵ دقیقه·۳ سال پیش

جهانی پر از داده‌های ساختگی

ماجرا چیست؟

داده‌های ساختگی بخشی از واقعیت تلخ و شیرین بشر امروزی محسوب میشه.

شاید فکر کنید جمله بالا رو دانشمندی که در عکس زیر لبخند به لب داره گفته باشه. اما چنین نیست و این جمله از خودمه! عکس زیر هم یه عکس ساختگیه که با یک سرویس آنلاین رایگان درست شده (لینک).

در واقع این این نوشته تلاش می‌کنه جمله‌ی بالا رو به نوعی اثبات کنه. اما شاید بپرسید داده ساختگی چیست؟

داده ساختگی یعنی هر داده‌ای که از جهان واقعی گرفته نشده. یک نمونه‌اش همون عکس بالا؛ یا هر متن، موزیک، ویدیو، یه سری از اعداد و ... که با الگوریتم‌های هوش مصنوعی ساخته شده.


دیتا: دروازه‌ی دانش

اهمیت داده (دیتا) بر کسی پوشیده نیست. شاید شکل بامزه‌ی زیر رو دیده باشین که نشون میده چطور از داده و اطلاعات، دانش استخراج می‌کنن و البته چیزهای دیگه‌ای مثل بینش و خرد هم به تدریج بهش اضافه کردن.

خلاصه اینکه داده نخستین گام در مسیر رسیدن به بینش، پول، قدرت و کلی چیزهای وسوسه‌انگیز دیگه است.

اما داده چطور به دست میاد؟ از اتفاقاتی که در جهان واقعی می‌افته: تعامل کاربران با سایت‌‌ها، مسیر حرکت خودروها در خیابون، سنسورهایی که دما و رطوبت محیط رو ثبت می‌کنن و …

خوشبختانه این روزها داده به وفور در دسترسه: شبکه جهانی اینترنت و به طور خاص اینترنت اشیاء (برای مثال سنسورهایی که به شبکه متصل شدن) روزانه حجم باورنکردنی دیتا تولید می‌کنن و با این حساب دور از ذهنه که به دنبال داده ساختگی باشیم.

اما چنین نیست و دلایل اهمیت داده ساختگی رو در ادامه میگیم. البته قبلاً در پیش‌بینی روندهای هوش مصنوعی هم به این موضوع اشاره کرده بودم.


داده تولید میشه، ...

... اما نه برای ما!

چند خط بالاتر اشاره کردم که اینترنت و اینترنت اشیاء روزانه حجم باورنکردنی دیتا تولید می‌کنن، اما خیلی از این داده‌ها به جیب ما نخواهد رفت. در واقع این روزها داده یه ارزش تجاری پیدا کرده و حتی مفهومی به اسم بازارچه داده (Data Marketplace) پدید اومده که صاحبان کسب و کار میتونن داده‌های مشتریان خودشون رو به خرید و فروش بذارن.

طبیعتاً نگرانی از نقض حریم خصوصی هم وجود داره اما مثل خیلی چیزهای دیگه، قانونی شدن این موضوع ممکنه جلوی تشکیل بازار سیاه دیتا رو بگیره و سطحی از نظارت رو فراهم کنه. البته طبیعتاً پرداختن به جوانب حقوقی و اجتماعی این موضوع در تخصص من نیست.

... اما بدون برچسب!

بله، باز هم تکرار می‌کنیم که داده زیادی تولید میشه، و احتمالاً با روش‌های یادگیری بدون نظارت و خودنظارت‌شده بتونیم تحلیل‌های ارزشمندی روی این دیتا انجام بدیم که از موضوع بحث ما خارجه. اما در هر حال، برچسب (لیبل) نقش مهمی در هوش مصنوعی ایفا میکنه و خواهد کرد.

چند خط زیر از مصاحبه آقای Rev Lebaredian از شرکت انویدیا مفهوم رو به خوبی می‌رسونه. این چند خط درباره طراحی روبات‌هاییه که دومینو می‌چینن.

شما می‌توانید گوگل را جستجو کنید و در آن‌جا تصاویر زیادی از دومینوها پیدا خواهید کرد، اما هیچ یک از آنها برچسب‌گذاری نشده‌اند. یک انسان باید برچسب هر دومینو و جهت آن را تعیین کند، و این یک کار کاملاً یدی [دستی] است.
ربات dominator که میتونه صدهزار دومینو رو در 24 ساعت بچینه.
ربات dominator که میتونه صدهزار دومینو رو در 24 ساعت بچینه.

... اما نه با تنوع لازم!

حتی اگه داده کافی در اختیار داشته باشیم و برچسب‌گذاری هم شده باشه، اما گاهی این داده‌ها همه توزیع آماری رو پوشش نمی‌دن، به خصوص اتفاقات نامطلوب و پرهزینه.

در ادامه همون مصاحبه بالا، این موضوع مطرح میشه:

برای چیزهای پیچیده‌تری مانند خودروهای خودران، مقدار داده‌ای که ما نیاز داریم، و دقت و تنوع آن داده‌ها، به نحوی است که به دست آوردن آن از دنیای واقعی غیرممکن است.

برای مثال، خودروهای خودران باید صحنه‌های زیادی از تصادف دیده باشن تا بتونن در چنین شرایطی عملکرد خوبی از خودشون نشون بدن؛ یا مثلاً سیستم‌های تشخیص جنایت.


راهکار چیست؟

همه‌ی دلایلی که ذکر شد، و شاید دلایل دیگه‌ای که به ذهن من نرسیده، به ما انگیزه میدن که رو به ساختن دیتای مصنوعی بیاریم. اما چگونه؟

پاسخ کوتاه: با الگوریتم‌های هوش مصنوعی مولّد!

منتها پاسخ بلند یکم نیاز به پیش‌زمینه تخصصی داره:

مدل‌های یادگیری ماشین در طول عمرشون که کمتر از یه قرنه،‌ همیشه با این هدف ساخته میشدن که توزیع احتمال شرطی رو بفهمن. یعنی اگه فلان ورودی رو داشته باشیم، خروجی چی میشه: مثلاً ورودی رو میتونین یه عکس تصور کنید و خروجی هم این که آیا این عکس داخلش آدم حضور داره یا نه.

اما کمتر از یه دهه است که این تصور به لطف تلاش‌های دانشمندان عوض شده و حالا از مدل‌های یادگیر میخوایم که توزیع احتمال مشترک رو درک کنن. مثلاً چه مجموعه از پیکسل‌های رنگی در یک عکس میتونه چهره یه انسان رو به وجود بیاره. همون شکلی که در ابتدای مطلب قرار دادم یه چنین داستانی داره. به عبارتی، مدل دونه‌دونه پیکسل‌ها رو از اول خودش ساخته.

مدل‌هایی که می‌تونن توزیع احتمال مشترک رو یاد بگیرن، مدل‌های مولّد نام دارن که گل سرسبدشون هم در حال حاضر، شبکه‌های مولد تخاصمی (GAN یا به اختصار گن) به شمار میاد.

شبکه‌های گن، از دو تا مدل یادگیر تشکیل میشن که:

  • یکیشون دیتای ساختگی تولید میکنه؛
  • اون یکی سعی میکنه تفاوت داده‌های ساختگی رو با داده واقعی تشخیص بده.

حالا به قول دوستم رامین رحیمی، "این مدل‌ها رو به جون هم می‌اندازیم" که همین باعث شده بهشون صفت تخاصمی رو اطلاق کنیم. این دو مدل در رقابت با همدیگه قدرتمند میشن، اما چیزی که در نهایت مورد نیاز ماست، مدل اولی خواهد بود که دیتای ساختگی تولید میکنه و جهان آینده رو میسازه.

کال تو اکشن!

اگه علاقه‌مند هستین درباره شبکه‌های مولّد بیش‌تر بدونین، کافیه به من پیغام بدین. من حمیدرضا مازندرانی هستم و سال‌های ساله که در زمینه شبکه‌های کامپیوتری و هوش مصنوعی می‌خونم و می‌نویسم.

اگه دست به کد هم هستین، آقای رامین فردوس (دومین رامینی که در این نوشته بهش ارجاع دادم!) مجموعه‌ای از گن‌ها رو در پیج گیت‌هاب خودش طراحی کرده که از گنِ تولید اعداد فرد شروع شده و به ساختن عکس رسیده.

اگه این مطلب رو دوست داشتین، شاید از مطلب قبلی‌ام با عنوان نیم‌نگاهی به هوش مصنوعی داده‌محور: یکی دیتای خوب به از صد هزار درباره اهمیت داده در هوش مصنوعی هم بدتون نیاد.


هوش مصنوعیدیتاساینسعلوم دادهgan
خالق محتوا، کد و هوشمندی!
شاید از این پست‌ها خوشتان بیاید