
منتشرشده در: مجله synced review به تاریخ ۴ فوریه ۲۰۲۱ لینک منبع: AAAI 2021 Best Papers Announced
سی و پنجمین کنفرانس AAAI درباره هوش مصنوعی (AAAI-21) امروز به صورت یک کنفرانس مجازی آغاز شد. کمیته برگزاری امروز صبح، بهترین مقالات را در جریان مراسم افتتاحیه اعلام کرد. سه مقاله جایزه بهترین مقاله را دریافت کردند و سه مقاله نیز به عنوان رانر آپ شناخته شدند. مجموع ۹،۰۳۴ مقاله ارسالی به AAAI ۲۰۲۱ رکورد بالایی را نشان داد که از ۸۸۰۰ رکورد سال گذشته بیشتر بود. مقالات ارسالی از چین (۳٬۳۱۹) تقریبا ۲ برابر تعداد مقالات ایالاتمتحده (۱٬۸۲۲). بود از ۷٬۹۱۱ مقاله که مورد بررسی قرار گرفتند، در مجموع ۱٬۶۹۲ مقاله به چاپ رسید. نرخ پذیرش امسال ۲۱ درصد بودهاست که کمی بیشتر از ۲۰.۶ درصد سال گذشتهاست.

موسسهها: دانشگاه بیهنگ، دانشگاه برکلی، دانشگاه راتگرز، شرکت توسعه تکنولوژی علم و فنآوری گووانگ فودا پکن
نویسندگان: هاوی ژو، شانگ ژانگ، جیوقی پنگ، شوای ژانگ، جیانشی لی، هوی شیانگ، وانچی ژانگ
چکیده: بسیاری از برنامههای کاربردی دنیای واقعی نیاز به پیشبینی سریهای زمانی توالی طولانی مانند برنامهریزی مصرف برق دارند. پیشبینی سریهای زمانی با توالی طولانی (LSTF) نیازمند ظرفیت بالای پیشبینی مدل با توانایی دریافت کوپلینگ وابستگی دامنه بلند دقیق بین خروجی و ورودی به طور موثر است. مطالعات اخیر پتانسیل ترانسفورمرها را برای افزایش ظرفیت پیشبینی نشان دادهاند. با این حال، چندین مساله جدی در مورد ترانسفورمرها وجود دارد که مانع از کاربرد مستقیم آن در LSTF میشود، مانند پیچیدگی زمانی درجهدوم، استفاده از حافظه بالا، و محدودیت ذاتی معماری رمزگذار-رمزگشا. برای پرداختن به این مسائل، ما یک مدل مبتنی بر ترانسفورمر کارآمد برای LSTF، به نام اینفورمر، با سه ویژگی متمایز طراحی میکنیم: (۱) یک مکانیزم خود-توجه پراکنده، که به O (Llog L) در پیچیدگی زمانی و استفاده از حافظه دست مییابد، و دارای عملکرد قابل مقایسهای در راستای وابستگی توالیها است. (۲) تقطیر خود-توجهی، توجه غالب را با نصف کردن ورودی لایه آبشاری، برجسته میسازد و به طور موثری توالی ورودی طولانی و شدید را کنترل میکند. (۳) رمزگشا به سبک زایشی، در حالی که از نظر مفهومی ساده است، توالیهای سری زمانی بلند را در یک عملیات رو به جلو پیشبینی میکند تا یک روش گامبهگام، که سرعت استنباط پیشبینیهای دنباله بلند را به شدت بهبود میبخشد. آزمایشها گسترده بر روی چهار مجموعه داده بزرگ مقیاس نشان میدهد که اینفورمر به طور قابلتوجهی از روشهای موجود بهتر عمل میکند و یک راهحل جدید برای مساله LSTF فراهم میکند.
موسسه: دانشگاه فنآوری و طراحی سنگاپور
نویسندگان: استفانوس لئوناردوس، جورجیوس پیلیوراس
چکیده: اکتشاف-بهرهبرداری یک ابزار قدرتمند و عملی در یادگیری چندعاملی است، با این حال، اثرات آن به دور از درک است. برای پیشرفت در این جهت، ما آنالوگ هموار یادگیری Q را مطالعه میکنیم. ما با نشان دادن این موضوع شروع میکنیم که مدل یادگیری ما توجیه نظری قوی به عنوان یک مدل بهینه برای مطالعه اکتشاف و بهرهبرداری دارد. به طور خاص، ما اثبات میکنیم که یادگیری نرم Q در بازیهای اختیاری برای یک مدل هزینه که به طور صریح تعادل بین بازی و هزینههای اکتشاف را نشان میدهد و اینکه همیشه به مجموعهای از تعادلهای شبه پاسخ (QRE) ، مفهوم راهحل استاندارد برای بازیها تحت عقلانیت محدود، در بازیهای بالقوه وزندار با عوامل یادگیری ناهمگن همگرا میشود. سپس در کار اصلی خود، به سنجش تاثیر اکتشاف در عملکرد سیستم جمعی میپردازیم. ما هندسه سطح QRE را در سیستمهای MAL با ابعاد پایین توصیف میکنیم و یافتههایمان را با نظریه فاجعه (دوشاخگی) پیوند میدهیم. به طور خاص، هنگامی که ابرپارامتر کاوش در طول زمان تکامل مییابد، سیستم متحمل انتقالهای فازی میشود که در آن تعداد و پایداری تعادلات میتواند به طور اساسی با یک تغییر بینهایت کوچک به پارامتر اکتشاف تغییر کند. بر این اساس، ما یک رویکرد نظری رسمی را ارائه میدهیم که چگونه تنظیم پارامتر اکتشاف میتواند به طور قابلاثبات منجر به انتخاب تعادل با اثرات مثبت و منفی (و به طور بالقوه نامحدود) برای عملکرد سیستم شود.
موسسهها: کالج دارتموث، دانشگاه تگزاس در آستین، گوگل AI
نویسندگان: روبو لیو، شنیان یا، جیسون وی، گوانگکوان ژو، لیلی وانگ و سروش ووسوگی چکیده: مدلهای زبان مقیاس بزرگ کنونی میتوانند از نظر سیاسی به عنوان نتیجهای از دادههایی که بر روی آنها آموزش داده شدهاند، مغرضانه باشند و به طور بالقوه باعث مشکلات جدی در زمانی شوند که در محیط دنیای واقعی مستقر شدهاند. در این مقاله، ما معیارهایی را برای اندازهگیری جهت گیری سیاسی در نسل GPT-۲ توصیف میکنیم و یک چارچوب یادگیری تقویتی (RL) را برای کاهش جهت گیری های سیاسی در متن تولید شده پیشنهاد میکنیم. چارچوب RL ما با استفاده از پاداشهای مربوط به درج کلمات یا یک طبقهبندی کننده، تولید بدون جهت گیری را بدون دسترسی به دادههای آموزشی یا نیاز به آموزش مجدد مدل، هدایت میکند. در آزمایشها تجربی در مورد سه ویژگی حساس به تعصب سیاسی (جنسیت، مکان و موضوع) ، روشهای ما تعصب را با توجه به معیارهای ما و ارزیابی انسانی کاهش دادند، در حالی که خوانایی و انسجام معنایی را حفظ کردند.
موسسهها: دانشگاه برکلی، دانشگاه تگزاس در آستین
نویسندگان: رومین لوپز، ایندرگیت دیلون، مایکل اول اردن
چکیده: ما مساله یادگیری دستهای از بازخورد راهزن در محیط فضاهای عملی بسیار بزرگ را مورد مطالعه قرار میدهیم. یادگیری از بازخورد راهزن افراطی در همه جا در سیستمهای توصیه وجود دارد، که در آن میلیاردها تصمیم بر روی مجموعههایی متشکل از میلیون ها انتخاب در یک روز گرفته میشوند، که دادههای مشاهدهای عظیمی را ایجاد میکنند. در این کاربردهای دنیای واقعی در مقیاس بزرگ، چارچوبهای یادگیری نظارت شده مانند طبقهبندی چند برچسبی eXtreme (XMC) به طور گستردهای مورد استفاده قرار میگیرند علیرغم این واقعیت که آنها به دلیل عدم تطابق بین بازخورد راهزن و برچسبهای نظارت شده، سوگیریهای قابلتوجهی را متحمل میشوند. چنین جهت گیری هایی را می توان با تکنیکهای مهم نمونهگیری کاهش داد، اما این تکنیکها در هنگام برخورد با تعداد زیادی از اقدامات از واریانس غیرعملی رنج میبرند. در این مقاله، ما یک برآورد کننده اهمیت انتخابی (sIS) را معرفی میکنیم که در یک رژیم دوواریانس بسیار مطلوب عمل میکند. تخمینگر sIS با انجام نمونهگیری اهمیت روی انتظار شرطی پاداش با توجه به زیرمجموعهای کوچک از اقدامات برای هر نمونه (شکلی از رایو بلکول) به دست میآید. ما این تخمینگر را در یک روند الگوریتمی جدید-به نام بهینهسازی سیاست برای مدلهای eXtreme (POXM)-برای یادگیری از بازخورد راهزن بر روی وظایف XMC به کار میگیریم. در POXM، اقدامات انتخابشده برای تخمینگر sIS، اقدامات بالای سیاست بهرهبرداری هستند، که در آن p از دادهها تنظیم میشود و به طور قابلتوجهی کوچکتر از اندازه فضای عمل است. ما از تبدیل نظارت شده به راهزن بر روی سه مجموعه داده XMC استفاده میکنیم تا روش POXM خود را در مقابل سه روش رقیب محک بزنیم: باندیتنت، یک استراتژی اصلاح تطبیقی جزئی که قبلا اعمال شدهاست و یک اساس یادگیری نظارت شده. در حالی که بندر itNet گاهی اوقات به طور حاشیهای نسبت به سیاست بهرهبرداری بهبود مییابد، آزمایشها ما نشان میدهد که POXM به طور سیستماتیک و قابلتوجه در تمام خطوط مبنا بهبود مییابد.
موسسهها: دانشگاه بیهنگ، پژوهش مایکروسافت
نویسندگان: یارو هائو، لی دونگ، فورو وی، کی ژو
چکیده: موفقیت بزرگ مدلهای مبتنی بر تبدیل از مکانیزم قدرتمند خود-توجهی چندسر بهره میبرد که وابستگیهای توکن را یاد میگیرد و اطلاعات متنی را از ورودی کد میکند. کار قبلی تلاش میکند تا تصمیمات مدل را به ویژگیهای ورودی منحصر به فرد با معیارهای برجستگی مختلف نسبت دهد، اما آنها قادر به توضیح چگونگی تعامل این ویژگیهای ورودی با یکدیگر برای رسیدن به پیشبینیها نیستند. در این مقاله، ما یک الگوریتم تخصیص خود-توجهی را برای تفسیر تعاملات اطلاعات درون دارالترجمه پیشنهاد میکنیم. ما برت را به عنوان مثالی برای انجام مطالعات گسترده در نظر میگیریم. اول، برجستهترین وابستگیها را در هر لایه استخراج میکنیم تا یک نمودار اسناد را ایجاد کنیم، که تعاملات سلسله مراتبی درون ترانسفورماتور را آشکار میکند. علاوه بر این، ما تخصیص خود-توجه را برای شناسایی سرهای مهم توجه اعمال میکنیم، در حالی که دیگران را تنها با تنزل عملکرد حاشیهای می توان هرس کرد. در نهایت، ما نشان میدهیم که نتایج اسناد میتوانند به عنوان الگوهای خصمانه برای اجرای حملات غیر هدفمند به سمت برت مورد استفاده قرار گیرند.
موسسه: دانشگاه هاروارد، دانشگاه کارنگی ملون
نویسندگان: لیلی ژو، الیزابت بوندی، فی فنگ، اندرو پرو، کای وانگ، میلیند تمب
چکیده: تلاشهای حفاظت در حوزههای امنیت سبز برای حفاظت از حیات وحش و جنگلها به دلیل دسترسی محدود مدافعان (یعنی ماموران گشت) که باید در مناطق وسیعی گشت زنی کنند تا از حمله کنندگان محافظت کنند (مانند شکارچیان و یا شکارچیان غیرقانونی) محدود شدهاست. مدافعان باید زمان صرف شدهبرای هر منطقه حفاظتشده را انتخاب کنند، اکتشاف مناطق به ندرت بازدید شده و بهرهبرداری از نقاط مهم شناختهشده را متعادل سازند. ما مساله را به عنوان یک راهزن چند مسلح تصادفی فرمولبندی میکنیم، که در آن هر اقدام نشاندهنده یک استراتژی گشت است، که ما را قادر میسازد تا نرخ همگرایی سیاست گشت زنی را تضمین کنیم. با این حال، یک رویکرد راهزن ساده عملکرد کوتاهمدت برای بهینگی بلندمدت را به خطر میاندازد، که منجر به شکار حیوانات و نابودی جنگلها میشود. برای سرعت بخشیدن به عملکرد، ما از یکنواختی در تابع پاداش و تجزیه پذیری اقدامات استفاده میکنیم. ما یک همکوشی بین پیوستگی و تجزیه Lipschitz را نشان میدهیم که هر کدام به همگرایی دیگری کمک میکند. در انجام این کار، ما شکاف بین باندهای ترکیبی و لیپشیتز را پر میکنیم، با ارائه یک رویکرد بدون تاسف که ضمانتهای موجود را کاهش میدهد در حالی که برای عملکرد کوتاهمدت بهینهسازی میشود. ما نشان میدهیم که الگوریتم ما، LiZارد، عملکرد دادههای شکار غیرقانونی دنیای واقعی از کامبوج را بهبود میبخشد.
این متن با استفاده از ربات ترجمه مقالات علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد. مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.