ویرگول
ورودثبت نام
ربات مترجم
ربات مترجممن ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه می‌کنم. متن کامل مقالات رو می‌تونین به صورت ترجمه شده از لینکی که در پایین پست قرار می‌گیره بخونین
ربات مترجم
ربات مترجم
خواندن ۸ دقیقه·۵ سال پیش

اعلام بهترین مقالات کنفرانس AAAI در سال ۲۰۲۱

منتشر‌شده در: مجله synced review به تاریخ ۴ فوریه ۲۰۲۱ لینک منبع: AAAI 2021 Best Papers Announced

سی و پنجمین کنفرانس AAAI درباره هوش مصنوعی (AAAI-21) امروز به صورت یک کنفرانس مجازی آغاز شد. کمیته برگزاری امروز صبح، بهترین مقالات را در جریان مراسم افتتاحیه اعلام کرد. سه مقاله جایزه بهترین مقاله را دریافت کردند و سه مقاله نیز به عنوان رانر آپ شناخته شدند. مجموع ۹،۰۳۴ مقاله ارسالی به AAAI ۲۰۲۱ رکورد بالایی را نشان داد که از ۸۸۰۰ رکورد سال گذشته بیشتر بود.  مقالات ارسالی از چین (۳٬۳۱۹) تقریبا ۲ برابر تعداد مقالات ایالات‌متحده (۱٬۸۲۲). بود از ۷٬۹۱۱ مقاله که مورد بررسی قرار گرفتند، در مجموع ۱٬۶۹۲ مقاله به چاپ رسید. نرخ پذیرش امسال ۲۱ درصد بوده‌است که کمی بیشتر از ۲۰.۶ درصد سال گذشته‌است.

بهترین مقالات

اینفورمر: فراتر از ترانسفورمر کارآمد برای پیش‌بینی سری‌های زمانی بلند مدت

موسسه‌ها: دانشگاه بیهنگ، دانشگاه برکلی، دانشگاه راتگرز، شرکت توسعه تکنولوژی علم و فن‌آوری گووانگ فودا پکن

نویسندگان: هاوی ژو، شانگ ژانگ، جیوقی پنگ، شوای ژانگ، جیانشی لی، هوی شیانگ، وانچی ژانگ

چکیده: بسیاری از برنامه‌های کاربردی دنیای واقعی نیاز به پیش‌بینی سری‌های زمانی توالی طولانی مانند برنامه‌ریزی مصرف برق دارند. پیش‌بینی سری‌های زمانی با توالی طولانی (LSTF) نیازمند ظرفیت بالای پیش‌بینی مدل با توانایی دریافت کوپلینگ وابستگی دامنه بلند دقیق بین خروجی و ورودی به طور موثر است. مطالعات اخیر پتانسیل ترانسفورمرها را برای افزایش ظرفیت پیش‌بینی نشان داده‌اند. با این حال، چندین مساله جدی در مورد ترانسفورمرها وجود دارد که مانع از کاربرد مستقیم آن در LSTF می‌شود، مانند پیچیدگی زمانی درجه‌دوم، استفاده از حافظه بالا، و محدودیت ذاتی معماری رمزگذار-رمزگشا. برای پرداختن به این مسائل، ما یک مدل مبتنی بر ترانسفورمر کارآمد برای LSTF، به نام اینفورمر، با سه ویژگی متمایز طراحی می‌کنیم: (۱) یک مکانیزم خود-توجه پراکنده، که به O (Llog L) در پیچیدگی زمانی و استفاده از حافظه دست می‌یابد، و دارای عملکرد قابل مقایسه‌ای در راستای وابستگی توالی‌ها است. (۲) تقطیر خود-توجهی، توجه غالب را با نصف کردن ورودی لایه آبشاری، برجسته می‌سازد و به طور موثری توالی ورودی طولانی و شدید را کنترل می‌کند. (۳) رمزگشا به سبک زایشی، در حالی که از نظر مفهومی ساده است، توالی‌های سری زمانی بلند را در یک عملیات رو به جلو پیش‌بینی می‌کند تا یک روش گام‌به‌گام، که سرعت استنباط پیش‌بینی‌های دنباله بلند را به شدت بهبود می‌بخشد. آزمایش‌ها گسترده بر روی چهار مجموعه داده بزرگ مقیاس نشان می‌دهد که اینفورمر به طور قابل‌توجهی از روش‌های موجود بهتر عمل می‌کند و یک راه‌حل جدید برای مساله LSTF فراهم می‌کند.

اکتشاف-بهره‌برداری در یادگیری چندعاملی: نظریه فاجعه با نظریه بازی مقابله می‌کند.

موسسه: دانشگاه فن‌آوری و طراحی سنگاپور

نویسندگان: استفانوس لئوناردوس، جورجیوس پیلیوراس 

چکیده: اکتشاف-بهره‌برداری یک ابزار قدرتمند و عملی در یادگیری چندعاملی است، با این حال، اثرات آن به دور از درک است. برای پیشرفت در این جهت، ما آنالوگ هموار یادگیری Q را مطالعه می‌کنیم. ما با نشان دادن این موضوع شروع می‌کنیم که مدل یادگیری ما توجیه نظری قوی به عنوان یک مدل بهینه برای مطالعه اکتشاف و بهره‌برداری دارد. به طور خاص، ما اثبات می‌کنیم که یادگیری نرم Q در بازی‌های اختیاری برای یک مدل هزینه که به طور صریح تعادل بین بازی و هزینه‌های اکتشاف را نشان می‌دهد و اینکه همیشه به مجموعه‌ای از تعادل‌های شبه پاسخ (QRE) ، مفهوم راه‌حل استاندارد برای بازی‌ها تحت عقلانیت محدود، در بازی‌های بالقوه وزن‌دار با عوامل یادگیری ناهمگن همگرا می‌شود. سپس در کار اصلی خود، به سنجش تاثیر اکتشاف در عملکرد سیستم جمعی می‌پردازیم. ما هندسه سطح QRE را در سیستم‌های MAL با ابعاد پایین توصیف می‌کنیم و یافته‌هایمان را با نظریه فاجعه (دوشاخگی) پیوند می‌دهیم. به طور خاص، هنگامی که ابرپارامتر کاوش در طول زمان تکامل می‌یابد، سیستم متحمل انتقال‌های فازی می‌شود که در آن تعداد و پایداری تعادلات می‌تواند به طور اساسی با یک تغییر بی‌نهایت کوچک به پارامتر اکتشاف تغییر کند. بر این اساس، ما یک رویکرد نظری رسمی را ارائه می‌دهیم که چگونه تنظیم پارامتر اکتشاف می‌تواند به طور قابل‌اثبات منجر به انتخاب تعادل با اثرات مثبت و منفی (و به طور بالقوه نامحدود) برای عملکرد سیستم شود.

کاهش تعصب سیاسی در مدل‌های زبانی از طریق تعدیل اجباری

موسسه‌ها: کالج دارتموث، دانشگاه تگزاس در آستین، گوگل AI

نویسندگان: روبو لیو، شنیان یا، جیسون وی، گوانگ‌کوان ژو، لی‌لی وانگ و سروش ووسوگی  چکیده: مدل‌های زبان مقیاس بزرگ کنونی می‌توانند از نظر سیاسی به عنوان نتیجه‌ای از داده‌هایی که بر روی آن‌ها آموزش داده شده‌اند، مغرضانه باشند و به طور بالقوه باعث مشکلات جدی در زمانی شوند که در محیط دنیای واقعی مستقر شده‌اند. در این مقاله، ما معیارهایی را برای اندازه‌گیری جهت گیری سیاسی در نسل GPT-۲ توصیف می‌کنیم و یک چارچوب یادگیری تقویتی (RL) را برای کاهش جهت گیری های سیاسی در متن تولید شده پیشنهاد می‌کنیم. چارچوب RL ما با استفاده از پاداش‌های مربوط به درج کلمات یا یک طبقه‌بندی کننده، تولید بدون جهت گیری را بدون دسترسی به داده‌های آموزشی یا نیاز به آموزش مجدد مدل، هدایت می‌کند. در آزمایش‌ها تجربی در مورد سه ویژگی حساس به تعصب سیاسی (جنسیت، مکان و موضوع) ، روش‌های ما تعصب را با توجه به معیارهای ما و ارزیابی انسانی کاهش دادند، در حالی که خوانایی و انسجام معنایی را حفظ کردند.

بهترین رانرآپ‌ها

یادگیری از بازخورد باندیت افراطی

موسسه‌ها: دانشگاه برکلی، دانشگاه تگزاس در آستین

نویسندگان: رومین لوپز، ایندرگیت دیلون، مایکل اول اردن 

چکیده: ما مساله یادگیری دسته‌ای از بازخورد راهزن در محیط فضاهای عملی بسیار بزرگ را مورد مطالعه قرار می‌دهیم. یادگیری از بازخورد راهزن افراطی در همه جا در سیستم‌های توصیه وجود دارد، که در آن میلیاردها تصمیم بر روی مجموعه‌هایی متشکل از میلیون ها انتخاب در یک روز گرفته می‌شوند، که داده‌های مشاهده‌ای عظیمی را ایجاد می‌کنند. در این کاربردهای دنیای واقعی در مقیاس بزرگ، چارچوب‌های یادگیری نظارت شده مانند طبقه‌بندی چند برچسبی eXtreme (XMC) به طور گسترده‌ای مورد استفاده قرار می‌گیرند علی‌رغم این واقعیت که آن‌ها به دلیل عدم تطابق بین بازخورد راهزن و برچسب‌های نظارت شده، سوگیری‌های قابل‌توجهی را متحمل می‌شوند. چنین جهت گیری هایی را می توان با تکنیک‌های مهم نمونه‌گیری کاهش داد، اما این تکنیک‌ها در هنگام برخورد با تعداد زیادی از اقدامات از واریانس غیرعملی رنج می‌برند. در این مقاله، ما یک برآورد کننده اهمیت انتخابی (sIS) را معرفی می‌کنیم که در یک رژیم دوواریانس بسیار مطلوب عمل می‌کند. تخمین‌گر sIS با انجام نمونه‌گیری اهمیت روی انتظار شرطی پاداش با توجه به زیرمجموعه‌ای کوچک از اقدامات برای هر نمونه (شکلی از رایو بلکول) به دست می‌آید. ما این تخمین‌گر را در یک روند الگوریتمی جدید-به نام بهینه‌سازی سیاست برای مدل‌های eXtreme (POXM)-برای یادگیری از بازخورد راهزن بر روی وظایف XMC به کار می‌گیریم. در POXM، اقدامات انتخاب‌شده برای تخمین‌گر sIS، اقدامات بالای سیاست بهره‌برداری هستند، که در آن p از داده‌ها تنظیم می‌شود و به طور قابل‌توجهی کوچک‌تر از اندازه فضای عمل است. ما از تبدیل نظارت شده به راهزن بر روی سه مجموعه داده XMC استفاده می‌کنیم تا روش POXM خود را در مقابل سه روش رقیب محک بزنیم: باندیت‌نت، یک استراتژی اصلاح تطبیقی جزئی که قبلا اعمال شده‌است و یک اساس یادگیری نظارت شده. در حالی که بندر itNet گاهی اوقات به طور حاشیه‌ای نسبت به سیاست بهره‌برداری بهبود می‌یابد، آزمایش‌ها ما نشان می‌دهد که POXM به طور سیستماتیک و قابل‌توجه در تمام خطوط مبنا بهبود می‌یابد.

توجه به خود مشارکت: تبادل اطلاعات درون موسسه تبادل داخلی (ها) : دانشگاه بیهنگ، تحقیق مایکروسافت

موسسه‌ها: دانشگاه بیهنگ، پژوهش مایکروسافت

نویسندگان: یارو هائو، لی دونگ، فورو وی، کی ژو

چکیده: موفقیت بزرگ مدل‌های مبتنی بر تبدیل از مکانیزم قدرتمند خود-توجهی چندسر بهره می‌برد که وابستگی‌های توکن را یاد می‌گیرد و اطلاعات متنی را از ورودی کد می‌کند. کار قبلی تلاش می‌کند تا تصمیمات مدل را به ویژگی‌های ورودی منحصر به فرد با معیارهای برجستگی مختلف نسبت دهد، اما آن‌ها قادر به توضیح چگونگی تعامل این ویژگی‌های ورودی با یکدیگر برای رسیدن به پیشبینیها نیستند. در این مقاله، ما یک الگوریتم تخصیص خود-توجهی را برای تفسیر تعاملات اطلاعات درون دارالترجمه پیشنهاد می‌کنیم. ما برت را به عنوان مثالی برای انجام مطالعات گسترده در نظر می‌گیریم. اول، برجسته‌ترین وابستگی‌ها را در هر لایه استخراج می‌کنیم تا یک نمودار اسناد را ایجاد کنیم، که تعاملات سلسله مراتبی درون ترانسفورماتور را آشکار می‌کند. علاوه بر این، ما تخصیص خود-توجه را برای شناسایی سره‌ای مهم توجه اعمال می‌کنیم، در حالی که دیگران را تنها با تنزل عملکرد حاشیه‌ای می توان هرس کرد. در نهایت، ما نشان می‌دهیم که نتایج اسناد می‌توانند به عنوان الگوهای خصمانه برای اجرای حملات غیر هدفمند به سمت برت مورد استفاده قرار گیرند.

گشتی‌های دو جانبه: چند مسلحانه برای امنیت سبز

موسسه: دانشگاه هاروارد، دانشگاه کارنگی ملون

نویسندگان: لی‌لی ژو، الیزابت بوندی، فی فنگ، اندرو پرو، کای وانگ، میلیند تمب

چکیده: تلاش‌های حفاظت در حوزه‌های امنیت سبز برای حفاظت از حیات وحش و جنگل‌ها به دلیل دسترسی محدود مدافعان (یعنی ماموران گشت) که باید در مناطق وسیعی گشت زنی کنند تا از حمله کنندگان محافظت کنند (مانند شکارچیان و یا شکارچیان غیرقانونی) محدود شده‌است. مدافعان باید زمان صرف شده‌برای هر منطقه حفاظت‌شده را انتخاب کنند، اکتشاف مناطق به ندرت بازدید شده و بهره‌برداری از نقاط مهم شناخته‌شده را متعادل سازند. ما مساله را به عنوان یک راهزن چند مسلح تصادفی فرمول‌بندی می‌کنیم، که در آن هر اقدام نشان‌دهنده یک استراتژی گشت است، که ما را قادر می‌سازد تا نرخ هم‌گرایی سیاست گشت زنی را تضمین کنیم. با این حال، یک رویکرد راهزن ساده عملکرد کوتاه‌مدت برای بهینگی بلندمدت را به خطر می‌اندازد، که منجر به شکار حیوانات و نابودی جنگل‌ها می‌شود. برای سرعت بخشیدن به عملکرد، ما از یکنواختی در تابع پاداش و تجزیه پذیری اقدامات استفاده می‌کنیم. ما یک همکوشی بین پیوستگی و تجزیه Lipschitz را نشان می‌دهیم که هر کدام به هم‌گرایی دیگری کمک می‌کند. در انجام این کار، ما شکاف بین باندهای ترکیبی و لیپشیتز را پر می‌کنیم، با ارائه یک رویکرد بدون تاسف که ضمانت‌های موجود را کاهش می‌دهد در حالی که برای عملکرد کوتاه‌مدت بهینه‌سازی می‌شود. ما نشان می‌دهیم که الگوریتم ما، LiZارد، عملکرد داده‌های شکار غیرقانونی دنیای واقعی از کامبوج را بهبود می‌بخشد.

این متن با استفاده از ربات ترجمه مقالات علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد. مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.
ترجمههوش مصنوعی
۱
۰
ربات مترجم
ربات مترجم
من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه می‌کنم. متن کامل مقالات رو می‌تونین به صورت ترجمه شده از لینکی که در پایین پست قرار می‌گیره بخونین
شاید از این پست‌ها خوشتان بیاید