خواندن ۲ دقیقه·۳ سال پیش

نیم‌نگاهی به هوش مصنوعی داده‌محور: یکی دیتای خوب به از صد هزار

ماجرا چیست؟

در مطلبی که با موضوع روندهای هوش مصنوعی در سال 2022 نوشته بودم، پیش‌بینی کردم که رویکرد هوش مصنوعی داده‌محور کم‌کم جای خودش رو در بین اهالی این حوزه باز خواهد کرد.

واژه داده‌محور رو معادل با Data-Centric گرفتم ولی شاید ترجمه دقیقی نباشه. میشه گفت داده‌مرکز ولی اینم خیلی به دل نمی‌شینه. حالا فارغ از این که ترجمه درست چی باشه، ببینیم مفهوم Data-Centric AI چیه؟

به طور خلاصه:

ایده اصلی رویکرد هوش مصنوعی داده‌محور اینه که دست از سر مدل‌های یادگیر برداریم و کمی هم به داده‌ها توجه کنیم و حتی مهندسی‌شون بکنیم!

در این نوشته کوتاه تلاش دارم این موضوع رو تشریح کنم و امیدوارم بتونم این کار رو به خوبی انجام بدم.

مهندسیِ داده

در دانشگاه یه شوخی با بچه‌های ‌هم‌دوره داریم مبنی بر این که هنگام رسم خروجی مقاله باید مهندسی داده انجام بدیم! به هر حال بعضی نمودارا باید یکم جابجا بشن تا باورپذیر بشن (:چشمک). البته ما هیچ‌گاه اعتبار علمی خودمون رو با این کار پایین نیاوردیم و این صرفاً یک شوخی برای تحمل‌پذیر کردن دوره فرسایشی و طاقت‌فرسای دکترا بود.

اما اندرو ان‌جی، چهره مشهور دنیای هوش مصنوعی که اصطلاح هوش مصنوعی داده‌محور رو سر زبون‌ها انداخته، باور داره که مهندسی داده کار خوبیه و حتی لازمه (البته نه در خروجی مقاله!). در شکل زیر که از یکی از سخنرانی‌های ایشون برداشتم، مفهوم رو به خوبی روشن میکنه.

ردیف بالا مراحل توسعه نرم‌افزارهای سنتی رو نشون میده که در حال حاضر پروژه‌های یادگیری ماشین هم عموماً از همین طرز فکر پیروی می‌کنن: تعریف پروژه، کدنویسی و عرضه محصول.

اما ردیف پایین رویکرد صحیح رو برای محصولات هوش مصنوعی نشون میده: گاهی موقعی که داریم مدل یادگیری ماشین رو آموزش میدیم یا حتی اون موقع که محصول پیاده‌سازی شده و دست مشتریه، بهتره برگردیم عقب و با یک نگرش جدید دوباره داده جمع‌آوری کنیم.

از Big Data به Good Data

پیشنهاد می‌کنم مصاحبه اخیر اندرو ان‌جی رو که با وب‌سایت IEEE Spectrum انجام شده بخونید.
عمده گفتگو به شفاف‌سازی درباره همین مفهوم هوش مصنوعی داده‌محور اختصاص داره. در ادامه بخش‌هایی از صحبت‌های اندرو ان‌جی رو نقل به مضمون می‌کنم:

هوش مصنوعی داده‌محور، مهندسی سیستماتیک داده‌هایی است که برای ساخت موفقیت‌آمیز یک سیستم هوش مصنوعی مورد نیازه.
برای بسیاری از کاربردهای عملی (حالا که مدل‌ها به توانایی خوبی رسیدن)، ثابت نگه داشتن معماری شبکه عصبی و یافتن راه‌کارهایی برای بهبود داده‌ها مفیدتره.
معماری‌هایی که برای صدها میلیون تصویر ساخته شده‌اند با تنها 50 تصویر کار نمی‌کنند. اما به نظر می‌رسد، اگر 50 نمونه‌ی واقعاً خوب داشته باشید، می‌توانید چیزی ارزشمند بسازید. در بسیاری از صنایع که مجموعه‌های داده خیلی بزرگ به سادگی وجود ندارند، فکر می‌کنم تمرکز باید از کلان‌داده به خوب‌داده تغییر کنه. داشتن 50 مثالِ به دقت مهندسی‌شده می‌تواند برای توضیح آنچه می‌خواهید شبکه عصبی بیاموزد کافی باشد.

سخن آخر

می‌دونیم که اغلب پروژه‌های یادگیری ماشین با بارگذاری دیتاست شروع میشن. البته در طول اجرای پروژه تغییراتی هم در دیتاست اعمال می‌شه (مثلاً اضافه کردن ویژگی‌های جدید) اما فایل اصلی دیتاست معمولاً دست نمی‌خوره. هوش مصنوعی داده‌محور قراره به شکل اصولی به ما کمک کنه تا بتونیم فایل اصلی رو هم بهبود بدیم. همین!

پی‌نوشت: عنوان این نوشته رو از این بیت زیبای منسوب به فردوسی الهام گرفتم:

سیاهی لشکر نیاید به کار / یکی مرد جنگی به از صد هزار

هوش مصنوعی داده دیتاساینس اندرو ان جی دیتا

حمیدرضا مازندرانی

خالق محتوا، کد و هوشمندی!

شاید از این پست‌ها خوشتان بیاید