روشی که ما هوش مصنوعی را آموزش می‌دهیم اساسا ناقص است

منتشر شده در: technologyreview به تاریخ ۱۸ نوامبر ۲۰۲۰
لینک مطلب اصلی: The way we train AI is fundamentally flawed

شکی نیست که مدل‌های یادگیری ماشینی برای عملکرد تقریبا کامل در آزمایشگاه وفق داده و تنظیم می‌شوند، اغلب در تنظیمات واقعی شکست می‌خورند. این به طور معمول به عدم تطابق بین داده‌هایی که هوش مصنوعی بر اساس آن‌ها آموزش داده میشود و بر روی آن‌ها آزمایش شده‌است و داده‌هایی که در جهان واقعی با آن‌ها مواجه است، که به عنوان تغییر داده شناخته می‌شود، محدود می‌شود. به عنوان مثال، یک هوش مصنوعی که برای تشخیص علائم بیماری در تصاویر پزشکی با کیفیت بالا آموزش‌دیده، در یک کلینیک شلوغ با تصاویر تار یا کراپ شده گرفته‌شده توسط یک دوربین ارزان درگیر خواهد شد.

اکنون یک گروه ۴۰ نفره از محققان در هفت تیم مختلف در گوگل دلیل اصلی دیگری را برای شکست مشترک مدل‌های یادگیری ماشینی شناسایی کرده‌اند. به آن «تشخیص حداقل» می‌گویند، این مساله می‌تواند یک مشکل بزرگ‌تر از انتقال داده باشد. کسی که رهبری این مطالعه را بر عهده داشت، Alex D’Amour می‌گوید: «ما بیش از آنکه بتوانیم با رویکرد فعلی خود تضمین کنیم، از مدل‌های یادگیری ماشینی انتظار داریم.»

یکی از مسایل مطرح در علم آمار، مساله مشخص‌سازی است. دامور، که سابقه استدلال علی دارد، می‌خواست بداند که چرا مدل‌های یادگیری ماشین خودش در عمل شکست می‌خورند. او در این فکر بود که آیا در این جا نیز ممکن است مشکل مشخص‌سازی حداقل باشد. دامور خیلی زود متوجه شد که بسیاری از همکارانش به همان مشکل در مدل‌های خود توجه کرده‌اند. او می‌گوید: « این در واقع پدیده‌ای است که در همه جا اتفاق می‌افتد.»

تحقیقات اولیه دامور منجر به اطلاعات زیادی شد و ده‌ها محقق گوگل به جستجوی طیفی از کاربردهای هوش مصنوعی مختلف، از تشخیص تصویر گرفته تا پردازش زبان طبیعی (NLP) تا پیش‌بینی بیماری پرداختند. آن‌ها دریافتند که در همه آن‌ها، مشخص‌سازی حداقل، عملکرد ضعیف است. مشکل در روش آموزش و تست مدل‌های یادگیری ماشینی نهفته‌است، و هیچ راه حلی وجود ندارد.

مهندس یادگیری ماشین در iRobot، Brandon Rohrer، که قبلا در فیس‌بوک و مایکروسافت کار می‌کرد و در این کار شرکت نداشت، می‌گوید که این مقاله یک «توپ مخرب» است.

مشابه اما متفاوت

برای اینکه بفهمیم دقیقاً چه اتفاقی می افتد ، باید کمی به عقب برگردیم. به طور کلی، ساخت یک مدل یادگیری ماشین شامل آموزش آن بر روی تعداد زیادی از نمونه‌ها و سپس آزمایش آن بر روی یک دسته از نمونه‌های مشابه است که هنوز دیده نشده است. وقتی مدل تست را پشت سر می‌گذارد، کار تمام می‌شود.

چیزی که محققان گوگل به آن اشاره کرده‌اند این است که این نوار بسیار باریک است. فرآیند آموزش می‌تواند مدل‌های مختلف زیادی تولید کند که همه آن‌ها تست را پشت سر می‌گذارند اما-و این بخش حیاتی است-این مدل‌ها به روش‌های کوچک و دل‌خواه متفاوت خواهند بود، بسته به چیزهایی مانند مقادیر تصادفی داده‌شده به گره‌ها در یک شبکه عصبی قبل از شروع آموزش، روش انتخاب یا ارایه داده آموزش، تعداد دوره‌های آموزش، و غیره. این تفاوت‌های کوچک، اغلب تصادفی، به طور معمول نادیده گرفته می‌شوند اگر بر چگونگی عملکرد یک مدل در آزمون تاثیر بگذارند. اما به نظر می‌رسد که آن‌ها می‌توانند منجر به تغییرات عظیم در عملکرد در دنیای واقعی شوند.

به عبارت دیگر، فرآیند مورد استفاده برای ساخت بیشتر مدل‌های یادگیری ماشینی امروز نمی‌تواند بگوید که کدام مدل‌ها در دنیای واقعی کارایی خواهند داشت و کدام یک از آن‌ها موثر نخواهند بود.

این مشابه تغییر داده نیست، که در آن آموزش نمی‌تواند یک مدل خوب ایجاد کند زیرا داده‌های آموزشی با نمونه‌های دنیای واقعی مطابقت ندارد. مشخص‌سازی حداقل به معنای چیزی متفاوت است: حتی اگر یک فرآیند آموزشی بتواند یک مدل خوب ایجاد کند، باز هم می‌تواند یک مدل بد را ارائه دهد، چون تفاوت را نمی‌داند. ما هم همین طور.

محققان به تاثیر مشخص‌سازی حداقل بر تعدادی از برنامه‌های مختلف نگاه کردند. در هر مورد آن‌ها از فرآیندهای آموزشی مشابه برای تولید مدل‌های یادگیری ماشین چندگانه استفاده کردند و سپس آن مدل‌ها را از طریق تست‌های استرس طراحی‌شده برای برجسته کردن تفاوت‌های خاص در عملکردشان اجرا کردند.

برای مثال، آن‌ها ۵۰ نسخه از یک مدل شناسایی تصویر را بر روی ImageNet، مجموعه داده تصاویر اشیا روزمره آموزش دادند. تنها تفاوت بین اجرای آموزش مقادیر تصادفی اختصاص‌یافته به شبکه عصبی در ابتدا بود. با این حال، با وجود تمام ۵۰ مدلی که در تست آموزشی کم و بیش امتیاز یک‌سان داشتند-که نشان می‌دهد آن‌ها به همان اندازه دقیق بودند-عملکرد آن‌ها در تست استرس به شدت متفاوت بود.

در این آزمایش از  ImageNet-C، مجموعه داده تصاویری از ImageNet که پیکسل شده یا روشنایی و کنتراست آن‌ها تغییر کرده، استفاده شده‌است و یک مجموعه داده از تصاویر اشیا روزمره در حالت‌های غیر معمول، مانند صندلی‌های پشت، قوری‌های وارونه و تی‌شرت‌هایی که از قلاب آویزان هستند. برخی از ۵۰ مدل با تصاویر پیکسل دار خوب عمل کردند، برخی با حالت‌های غیر معمول خوب عمل کردند؛ برخی در کل خیلی بهتر از بقیه عمل کردند. اما تا آنجا که به فرآیند آموزش استاندارد مربوط می‌شد، همه آن‌ها یک‌سان بودند.

محققان آزمایش‌ها مشابهی را با دو سیستم NLP متفاوت، و سه هوش مصنوعی پزشکی برای پیش‌بینی بیماری چشم از اسکن‌های شبکیه، سرطان از ضایعات پوستی، و نارسایی کلیه از سوابق بیمار انجام دادند. هر سیستم یک مشکل دارد: مدل‌هایی که باید به همان اندازه دقیق باشند وقتی با داده‌های دنیای واقعی آزمایش می‌شوند، مانند اسکن‌های مختلف شبکیه یا انواع پوست.

روهرر می‌گوید ممکن است لازم باشد در مورد نحوه ارزیابی شبکه‌های عصبی تجدید نظر کنیم. « این امر باعث ایجاد سوراخ‌هایی در فرضیات اساسی ما می‌شود.» دامور نیز موافق است.

او می‌گوید: «بزرگ‌ترین و سریع‌ترین رستوران این است که ما باید آزمایش‌های بیشتری انجام دهیم.» با این حال، این کار آسان نخواهد بود. تست‌های استرس به طور خاص با استفاده از داده‌های گرفته‌شده از دنیای واقعی یا داده‌هایی که شبیه دنیای واقعی بودند، برای هر کار مناسب بودند. که همیشه در دسترس نیست.

برخی از تست‌های استرس نیز با یکدیگر در تضاد هستند: مدل‌هایی که در تشخیص تصاویر پیکسل شده خوب بودند، در تشخیص تصاویر با کنتراست بالا، به عنوان مثال، بد بودند. ممکن است همیشه آموزش یک مدل که تمام تست‌های استرس را پشت سر می‌گذارد ممکن نباشد.

انتخاب چندگانه

یک گزینه، طراحی یک مرحله اضافی برای فرآیند آموزش و تست است، که در آن بسیاری از مدل‌ها به جای فقط یک مدل، بلافاصله تولید می‌شوند. سپس این مدل‌های رقیب را می توان دوباره بر روی کارهای خاص دنیای واقعی تست کرد تا بهترین مدل برای این کار انتخاب شود. کار خیلی زیادی است.

یانیس کیلچر، محقق یادگیری ماشین در ETH زوریخ می‌گوید، اما برای شرکتی مانند گوگل، که مدل‌های بزرگ را می‌سازد و توسعه می‌دهد، ارزش دارد. گوگل می‌تواند ۵۰ نسخه مختلف از یک مدل NLP را ارائه دهد و توسعه دهندگان برنامه می‌توانند یکی از بهترین آن‌ها را انتخاب کنند.

دامور و همکارانش هنوز راه حلی ندارند، بلکه در حال بررسی راه‌هایی برای بهبود روند آموزش هستند. او می‌گوید: « ما باید در تعیین دقیق الزامات برای مدل‌های خود بهتر شویم.» « چون اغلب چیزی که اتفاق می‌افتد این است که ما این الزامات را تنها پس از اینکه مدل در جهان شکست‌خورده است، کشف می‌کنیم.»

اگر هوش مصنوعی بخواهد به اندازه داخل آزمایشگاه تاثیر داشته باشد، بدست آوردن یک راه‌حل حیاتی است. کاترین هلر، یکی از نویسندگان این کتاب که برای بهبود هوش مصنوعی در گوگل کار می‌کند، می‌گوید: وقتی هوش مصنوعی در دنیای واقعی عملکرد ضعیفی دارد، باعث می‌شود مردم کم‌تر بخواهند از آن استفاده کنند:«ما اعتماد زیادی را در مورد کاربردهای قاتل از دست داده‌ایم، این اعتماد مهمی است که می‌خواهیم دوباره به دست آوریم.»

ترجمه این مقاله با استفاده از ربات ترجمه آنلاین مقالات هوش مصنوعی انجام شده و بصورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.