من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
روشی که ما هوش مصنوعی را آموزش میدهیم اساسا ناقص است
منتشر شده در: technologyreview به تاریخ ۱۸ نوامبر ۲۰۲۰
لینک مطلب اصلی: The way we train AI is fundamentally flawed
شکی نیست که مدلهای یادگیری ماشینی برای عملکرد تقریبا کامل در آزمایشگاه وفق داده و تنظیم میشوند، اغلب در تنظیمات واقعی شکست میخورند. این به طور معمول به عدم تطابق بین دادههایی که هوش مصنوعی بر اساس آنها آموزش داده میشود و بر روی آنها آزمایش شدهاست و دادههایی که در جهان واقعی با آنها مواجه است، که به عنوان تغییر داده شناخته میشود، محدود میشود. به عنوان مثال، یک هوش مصنوعی که برای تشخیص علائم بیماری در تصاویر پزشکی با کیفیت بالا آموزشدیده، در یک کلینیک شلوغ با تصاویر تار یا کراپ شده گرفتهشده توسط یک دوربین ارزان درگیر خواهد شد.
اکنون یک گروه ۴۰ نفره از محققان در هفت تیم مختلف در گوگل دلیل اصلی دیگری را برای شکست مشترک مدلهای یادگیری ماشینی شناسایی کردهاند. به آن «تشخیص حداقل» میگویند، این مساله میتواند یک مشکل بزرگتر از انتقال داده باشد. کسی که رهبری این مطالعه را بر عهده داشت، Alex D’Amour میگوید: «ما بیش از آنکه بتوانیم با رویکرد فعلی خود تضمین کنیم، از مدلهای یادگیری ماشینی انتظار داریم.»
یکی از مسایل مطرح در علم آمار، مساله مشخصسازی است. دامور، که سابقه استدلال علی دارد، میخواست بداند که چرا مدلهای یادگیری ماشین خودش در عمل شکست میخورند. او در این فکر بود که آیا در این جا نیز ممکن است مشکل مشخصسازی حداقل باشد. دامور خیلی زود متوجه شد که بسیاری از همکارانش به همان مشکل در مدلهای خود توجه کردهاند. او میگوید: « این در واقع پدیدهای است که در همه جا اتفاق میافتد.»
تحقیقات اولیه دامور منجر به اطلاعات زیادی شد و دهها محقق گوگل به جستجوی طیفی از کاربردهای هوش مصنوعی مختلف، از تشخیص تصویر گرفته تا پردازش زبان طبیعی (NLP) تا پیشبینی بیماری پرداختند. آنها دریافتند که در همه آنها، مشخصسازی حداقل، عملکرد ضعیف است. مشکل در روش آموزش و تست مدلهای یادگیری ماشینی نهفتهاست، و هیچ راه حلی وجود ندارد.
مهندس یادگیری ماشین در iRobot، Brandon Rohrer، که قبلا در فیسبوک و مایکروسافت کار میکرد و در این کار شرکت نداشت، میگوید که این مقاله یک «توپ مخرب» است.
مشابه اما متفاوت
برای اینکه بفهمیم دقیقاً چه اتفاقی می افتد ، باید کمی به عقب برگردیم. به طور کلی، ساخت یک مدل یادگیری ماشین شامل آموزش آن بر روی تعداد زیادی از نمونهها و سپس آزمایش آن بر روی یک دسته از نمونههای مشابه است که هنوز دیده نشده است. وقتی مدل تست را پشت سر میگذارد، کار تمام میشود.
چیزی که محققان گوگل به آن اشاره کردهاند این است که این نوار بسیار باریک است. فرآیند آموزش میتواند مدلهای مختلف زیادی تولید کند که همه آنها تست را پشت سر میگذارند اما-و این بخش حیاتی است-این مدلها به روشهای کوچک و دلخواه متفاوت خواهند بود، بسته به چیزهایی مانند مقادیر تصادفی دادهشده به گرهها در یک شبکه عصبی قبل از شروع آموزش، روش انتخاب یا ارایه داده آموزش، تعداد دورههای آموزش، و غیره. این تفاوتهای کوچک، اغلب تصادفی، به طور معمول نادیده گرفته میشوند اگر بر چگونگی عملکرد یک مدل در آزمون تاثیر بگذارند. اما به نظر میرسد که آنها میتوانند منجر به تغییرات عظیم در عملکرد در دنیای واقعی شوند.
به عبارت دیگر، فرآیند مورد استفاده برای ساخت بیشتر مدلهای یادگیری ماشینی امروز نمیتواند بگوید که کدام مدلها در دنیای واقعی کارایی خواهند داشت و کدام یک از آنها موثر نخواهند بود.
این مشابه تغییر داده نیست، که در آن آموزش نمیتواند یک مدل خوب ایجاد کند زیرا دادههای آموزشی با نمونههای دنیای واقعی مطابقت ندارد. مشخصسازی حداقل به معنای چیزی متفاوت است: حتی اگر یک فرآیند آموزشی بتواند یک مدل خوب ایجاد کند، باز هم میتواند یک مدل بد را ارائه دهد، چون تفاوت را نمیداند. ما هم همین طور.
محققان به تاثیر مشخصسازی حداقل بر تعدادی از برنامههای مختلف نگاه کردند. در هر مورد آنها از فرآیندهای آموزشی مشابه برای تولید مدلهای یادگیری ماشین چندگانه استفاده کردند و سپس آن مدلها را از طریق تستهای استرس طراحیشده برای برجسته کردن تفاوتهای خاص در عملکردشان اجرا کردند.
برای مثال، آنها ۵۰ نسخه از یک مدل شناسایی تصویر را بر روی ImageNet، مجموعه داده تصاویر اشیا روزمره آموزش دادند. تنها تفاوت بین اجرای آموزش مقادیر تصادفی اختصاصیافته به شبکه عصبی در ابتدا بود. با این حال، با وجود تمام ۵۰ مدلی که در تست آموزشی کم و بیش امتیاز یکسان داشتند-که نشان میدهد آنها به همان اندازه دقیق بودند-عملکرد آنها در تست استرس به شدت متفاوت بود.
در این آزمایش از ImageNet-C، مجموعه داده تصاویری از ImageNet که پیکسل شده یا روشنایی و کنتراست آنها تغییر کرده، استفاده شدهاست و یک مجموعه داده از تصاویر اشیا روزمره در حالتهای غیر معمول، مانند صندلیهای پشت، قوریهای وارونه و تیشرتهایی که از قلاب آویزان هستند. برخی از ۵۰ مدل با تصاویر پیکسل دار خوب عمل کردند، برخی با حالتهای غیر معمول خوب عمل کردند؛ برخی در کل خیلی بهتر از بقیه عمل کردند. اما تا آنجا که به فرآیند آموزش استاندارد مربوط میشد، همه آنها یکسان بودند.
محققان آزمایشها مشابهی را با دو سیستم NLP متفاوت، و سه هوش مصنوعی پزشکی برای پیشبینی بیماری چشم از اسکنهای شبکیه، سرطان از ضایعات پوستی، و نارسایی کلیه از سوابق بیمار انجام دادند. هر سیستم یک مشکل دارد: مدلهایی که باید به همان اندازه دقیق باشند وقتی با دادههای دنیای واقعی آزمایش میشوند، مانند اسکنهای مختلف شبکیه یا انواع پوست.
روهرر میگوید ممکن است لازم باشد در مورد نحوه ارزیابی شبکههای عصبی تجدید نظر کنیم. « این امر باعث ایجاد سوراخهایی در فرضیات اساسی ما میشود.» دامور نیز موافق است.
او میگوید: «بزرگترین و سریعترین رستوران این است که ما باید آزمایشهای بیشتری انجام دهیم.» با این حال، این کار آسان نخواهد بود. تستهای استرس به طور خاص با استفاده از دادههای گرفتهشده از دنیای واقعی یا دادههایی که شبیه دنیای واقعی بودند، برای هر کار مناسب بودند. که همیشه در دسترس نیست.
برخی از تستهای استرس نیز با یکدیگر در تضاد هستند: مدلهایی که در تشخیص تصاویر پیکسل شده خوب بودند، در تشخیص تصاویر با کنتراست بالا، به عنوان مثال، بد بودند. ممکن است همیشه آموزش یک مدل که تمام تستهای استرس را پشت سر میگذارد ممکن نباشد.
انتخاب چندگانه
یک گزینه، طراحی یک مرحله اضافی برای فرآیند آموزش و تست است، که در آن بسیاری از مدلها به جای فقط یک مدل، بلافاصله تولید میشوند. سپس این مدلهای رقیب را می توان دوباره بر روی کارهای خاص دنیای واقعی تست کرد تا بهترین مدل برای این کار انتخاب شود. کار خیلی زیادی است.
یانیس کیلچر، محقق یادگیری ماشین در ETH زوریخ میگوید، اما برای شرکتی مانند گوگل، که مدلهای بزرگ را میسازد و توسعه میدهد، ارزش دارد. گوگل میتواند ۵۰ نسخه مختلف از یک مدل NLP را ارائه دهد و توسعه دهندگان برنامه میتوانند یکی از بهترین آنها را انتخاب کنند.
دامور و همکارانش هنوز راه حلی ندارند، بلکه در حال بررسی راههایی برای بهبود روند آموزش هستند. او میگوید: « ما باید در تعیین دقیق الزامات برای مدلهای خود بهتر شویم.» « چون اغلب چیزی که اتفاق میافتد این است که ما این الزامات را تنها پس از اینکه مدل در جهان شکستخورده است، کشف میکنیم.»
اگر هوش مصنوعی بخواهد به اندازه داخل آزمایشگاه تاثیر داشته باشد، بدست آوردن یک راهحل حیاتی است. کاترین هلر، یکی از نویسندگان این کتاب که برای بهبود هوش مصنوعی در گوگل کار میکند، میگوید: وقتی هوش مصنوعی در دنیای واقعی عملکرد ضعیفی دارد، باعث میشود مردم کمتر بخواهند از آن استفاده کنند:«ما اعتماد زیادی را در مورد کاربردهای قاتل از دست دادهایم، این اعتماد مهمی است که میخواهیم دوباره به دست آوریم.»
ترجمه این مقاله با استفاده از ربات ترجمه آنلاین مقالات هوش مصنوعی انجام شده و بصورت محدود مورد بازبینی انسانی قرار گرفته است. در نتیجه ممکن است دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
مدل جدید هوش مصنوعی انویدیا میتواند تصاویر ثابت را به گرافیک سهبعدی تبدیل کند
مطلبی دیگر از این انتشارات
شبیهسازی جذب ترکیبی و دیاکسید کربن از گاز دودکش احتراق
مطلبی دیگر از این انتشارات
فضاپیمای Lucy ناسا در حال عبور از فاصله ۳۰ میلیون مایلی از زمین است -آزمایش آرایه خورشیدی ادامه دارد