دادههای ساختگی بخشی از واقعیت تلخ و شیرین بشر امروزی محسوب میشه.
شاید فکر کنید جمله بالا رو دانشمندی که در عکس زیر لبخند به لب داره گفته باشه. اما چنین نیست و این جمله از خودمه! عکس زیر هم یه عکس ساختگیه که با یک سرویس آنلاین رایگان درست شده (لینک).
در واقع این این نوشته تلاش میکنه جملهی بالا رو به نوعی اثبات کنه. اما شاید بپرسید داده ساختگی چیست؟
داده ساختگی یعنی هر دادهای که از جهان واقعی گرفته نشده. یک نمونهاش همون عکس بالا؛ یا هر متن، موزیک، ویدیو، یه سری از اعداد و ... که با الگوریتمهای هوش مصنوعی ساخته شده.
اهمیت داده (دیتا) بر کسی پوشیده نیست. شاید شکل بامزهی زیر رو دیده باشین که نشون میده چطور از داده و اطلاعات، دانش استخراج میکنن و البته چیزهای دیگهای مثل بینش و خرد هم به تدریج بهش اضافه کردن.
خلاصه اینکه داده نخستین گام در مسیر رسیدن به بینش، پول، قدرت و کلی چیزهای وسوسهانگیز دیگه است.
اما داده چطور به دست میاد؟ از اتفاقاتی که در جهان واقعی میافته: تعامل کاربران با سایتها، مسیر حرکت خودروها در خیابون، سنسورهایی که دما و رطوبت محیط رو ثبت میکنن و …
خوشبختانه این روزها داده به وفور در دسترسه: شبکه جهانی اینترنت و به طور خاص اینترنت اشیاء (برای مثال سنسورهایی که به شبکه متصل شدن) روزانه حجم باورنکردنی دیتا تولید میکنن و با این حساب دور از ذهنه که به دنبال داده ساختگی باشیم.
اما چنین نیست و دلایل اهمیت داده ساختگی رو در ادامه میگیم. البته قبلاً در پیشبینی روندهای هوش مصنوعی هم به این موضوع اشاره کرده بودم.
... اما نه برای ما!
چند خط بالاتر اشاره کردم که اینترنت و اینترنت اشیاء روزانه حجم باورنکردنی دیتا تولید میکنن، اما خیلی از این دادهها به جیب ما نخواهد رفت. در واقع این روزها داده یه ارزش تجاری پیدا کرده و حتی مفهومی به اسم بازارچه داده (Data Marketplace) پدید اومده که صاحبان کسب و کار میتونن دادههای مشتریان خودشون رو به خرید و فروش بذارن.
طبیعتاً نگرانی از نقض حریم خصوصی هم وجود داره اما مثل خیلی چیزهای دیگه، قانونی شدن این موضوع ممکنه جلوی تشکیل بازار سیاه دیتا رو بگیره و سطحی از نظارت رو فراهم کنه. البته طبیعتاً پرداختن به جوانب حقوقی و اجتماعی این موضوع در تخصص من نیست.
... اما بدون برچسب!
بله، باز هم تکرار میکنیم که داده زیادی تولید میشه، و احتمالاً با روشهای یادگیری بدون نظارت و خودنظارتشده بتونیم تحلیلهای ارزشمندی روی این دیتا انجام بدیم که از موضوع بحث ما خارجه. اما در هر حال، برچسب (لیبل) نقش مهمی در هوش مصنوعی ایفا میکنه و خواهد کرد.
چند خط زیر از مصاحبه آقای Rev Lebaredian از شرکت انویدیا مفهوم رو به خوبی میرسونه. این چند خط درباره طراحی روباتهاییه که دومینو میچینن.
شما میتوانید گوگل را جستجو کنید و در آنجا تصاویر زیادی از دومینوها پیدا خواهید کرد، اما هیچ یک از آنها برچسبگذاری نشدهاند. یک انسان باید برچسب هر دومینو و جهت آن را تعیین کند، و این یک کار کاملاً یدی [دستی] است.
... اما نه با تنوع لازم!
حتی اگه داده کافی در اختیار داشته باشیم و برچسبگذاری هم شده باشه، اما گاهی این دادهها همه توزیع آماری رو پوشش نمیدن، به خصوص اتفاقات نامطلوب و پرهزینه.
در ادامه همون مصاحبه بالا، این موضوع مطرح میشه:
برای چیزهای پیچیدهتری مانند خودروهای خودران، مقدار دادهای که ما نیاز داریم، و دقت و تنوع آن دادهها، به نحوی است که به دست آوردن آن از دنیای واقعی غیرممکن است.
برای مثال، خودروهای خودران باید صحنههای زیادی از تصادف دیده باشن تا بتونن در چنین شرایطی عملکرد خوبی از خودشون نشون بدن؛ یا مثلاً سیستمهای تشخیص جنایت.
همهی دلایلی که ذکر شد، و شاید دلایل دیگهای که به ذهن من نرسیده، به ما انگیزه میدن که رو به ساختن دیتای مصنوعی بیاریم. اما چگونه؟
پاسخ کوتاه: با الگوریتمهای هوش مصنوعی مولّد!
منتها پاسخ بلند یکم نیاز به پیشزمینه تخصصی داره:
مدلهای یادگیری ماشین در طول عمرشون که کمتر از یه قرنه، همیشه با این هدف ساخته میشدن که توزیع احتمال شرطی رو بفهمن. یعنی اگه فلان ورودی رو داشته باشیم، خروجی چی میشه: مثلاً ورودی رو میتونین یه عکس تصور کنید و خروجی هم این که آیا این عکس داخلش آدم حضور داره یا نه.
اما کمتر از یه دهه است که این تصور به لطف تلاشهای دانشمندان عوض شده و حالا از مدلهای یادگیر میخوایم که توزیع احتمال مشترک رو درک کنن. مثلاً چه مجموعه از پیکسلهای رنگی در یک عکس میتونه چهره یه انسان رو به وجود بیاره. همون شکلی که در ابتدای مطلب قرار دادم یه چنین داستانی داره. به عبارتی، مدل دونهدونه پیکسلها رو از اول خودش ساخته.
مدلهایی که میتونن توزیع احتمال مشترک رو یاد بگیرن، مدلهای مولّد نام دارن که گل سرسبدشون هم در حال حاضر، شبکههای مولد تخاصمی (GAN یا به اختصار گن) به شمار میاد.
شبکههای گن، از دو تا مدل یادگیر تشکیل میشن که:
حالا به قول دوستم رامین رحیمی، "این مدلها رو به جون هم میاندازیم" که همین باعث شده بهشون صفت تخاصمی رو اطلاق کنیم. این دو مدل در رقابت با همدیگه قدرتمند میشن، اما چیزی که در نهایت مورد نیاز ماست، مدل اولی خواهد بود که دیتای ساختگی تولید میکنه و جهان آینده رو میسازه.
اگه علاقهمند هستین درباره شبکههای مولّد بیشتر بدونین، کافیه به من پیغام بدین. من حمیدرضا مازندرانی هستم و سالهای ساله که در زمینه شبکههای کامپیوتری و هوش مصنوعی میخونم و مینویسم.
اگه دست به کد هم هستین، آقای رامین فردوس (دومین رامینی که در این نوشته بهش ارجاع دادم!) مجموعهای از گنها رو در پیج گیتهاب خودش طراحی کرده که از گنِ تولید اعداد فرد شروع شده و به ساختن عکس رسیده.
اگه این مطلب رو دوست داشتین، شاید از مطلب قبلیام با عنوان نیمنگاهی به هوش مصنوعی دادهمحور: یکی دیتای خوب به از صد هزار درباره اهمیت داده در هوش مصنوعی هم بدتون نیاد.