من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
مطالعهای بر پیشرفتهای پردازش زبان طبیعی با یادگیری عمیق
۱- مقدمه
پردازش زبان طبیعی یک رشته فرعی از علوم کامپیوتر است که پلی بین زبانهای طبیعی و کامپیوترها ایجاد میکند. به ماشینها کمک میکند که زبان انسان را درک، پردازش و تحلیل کنند [ ۱ ]. اهمیت NLP به عنوان یک ابزار کمک به درک دادههای تولید شده توسط انسان، نتیجه منطقی وابستگی بافتی دادهها است. دادهها از طریق درک عمیقتر از بافت آنها، که به نوبه خود تحلیل متن و کاوش را تسهیل میکند، معنیدارتر میشوند. NLP این امر را با ساختارها و الگوهای ارتباطی انسانها قادر میسازد.
توسعه روشهای NLP به طور فزایندهای وابسته به روشهای برگرفته از داده است که به ساخت مدلهای قویتر و قابلاتکاتر کمک میکند [ ۲ ]، [ ۳ ]. پیشرفتهای اخیر در توان محاسباتی، و همچنین در دسترس بودن دادههای بزرگ، یادگیری عمیق را فعال میکند، یکی از جذابترین روشها در حوزه NLP [ ۲ ] - [ ۴ ]، به خصوص با توجه به این که یادگیری عمیق در حال حاضر عملکرد برتر در زمینههای مجاور مانند بینایی ماشین [ ۵ ] - [ ۷ ] و تشخیص گفتار [ ۸ ]، [ ۹ ] را نشان دادهاست. این تحولات منجر به تغییر پارادایم از رویکردهای سنتی به رویکردهای داده محور جدید با هدف پیشبرد NLP شد. دلیل این تغییر ساده بود: رویکردهای جدید در مورد نتایج امیدوارکنندهتر هستند، و مهندسی آنها آسانتر است.
به عنوان یک موضوع فرعی برای پیشرفت قابلتوجه در رشتههای مجاور با استفاده از روشهای یادگیری عمیق، شبکههای عصبی عمیق برای وظایف مختلف NLP، از جمله برچسب گذاری گفتار [ ۱۰ ] - [ ۱۲ ]، شناسایی نهادهای اسمی [ ۱۳ ]، [ ۱۳ ]، [ ۱۴ ]، و برچسب گذاری نقش معنایی [ ۱۵ ] - [ ۱۷ ] به کار گرفته شدهاند. بیشتر تلاشهای تحقیقاتی در یادگیری عمیق مرتبط با برنامههای NLP شامل یادگیری تحت نظارت یا یادگیری بدون نظارت است.
این بررسی، نقش در حال ظهور یادگیری عمیق در حوزه NLP، در میان طیف گستردهای از مقولهها را پوشش میدهد. این مطالعه، نقش در حال ظهور یادگیری عمیق در حوزه NLP، در میان طیف گستردهای از مقولهها را پوشش میدهد. تحقیقات ارایهشده در [ ۱۸ ] در درجه اول بر معماریها با بحث کمی در مورد کاربردها متمرکز شدهاست. از سوی دیگر، این مقاله چالشها، فرصتها و ارزیابیهای تاثیر اعمال یادگیری عمیق بر مشکلات NLP را توصیف میکند.
این بررسی شش بخش دارد، از جمله این مقدمه. بخش ۲ ابعاد نظری NLP و هوش مصنوعی را ارایه میدهد و به یادگیری عمیق به عنوان روشی برای حل مشکلات دنیای واقعی نگاه میکند. این امر این مطالعه را با پرداختن به این سوال تحریک میکند: چرا یادگیری عمیق در NLP استفاده میشود؟ بخش سوم مفاهیم اساسی لازم برای درک NLP را مورد بحث قرار میدهد که موضوعات نمونه را در نمایش، چارچوبها، و یادگیری ماشین پوشش میدهد. بخش چهارم خلاصهای از مجموعه دادههای بنچمارک به کار رفته در دامنه NLP است. بخش ۵ بر روی برخی از برنامههای NLP تمرکز میکند که در آن یادگیری عمیق مزایای قابلتوجهی را نشان دادهاست. در نهایت، بخش ۶ نتیجهگیری را ارایه میدهد، همچنین به برخی از مشکلات باز و مناطق امید بخش برای بهبود میپردازد.
۲- پیشزمینه
پردازش زبان طبیعی از دیرباز به عنوان یک جنبه از هوش مصنوعی در نظر گرفته شدهاست، زیرا درک و تولید زبان طبیعی نشانههای سطح بالایی از هوش هستند. یادگیری عمیق یک ابزار موثر هوش مصنوعی است، بنابراین ما در ادامه جایگاه یادگیری عمیق را در دنیای هوش مصنوعی بررسی میکنیم . پس از آن ما انگیزهها برای اعمال یادگیری عمیق در NLP را توضیح میدهیم.
الف. هوش مصنوعی و یادگیری عمیق
جزایر موفقیتی وجود دارند که در آنها دادههای بزرگ از طریق قابلیتهای هوش مصنوعی پردازش میشوند تا اطلاعات را برای دستیابی به اهداف عملیاتی مهم تولید کنند (به عنوان مثال، ردیابی تقلب).
بر این اساس، دانشمندان و مصرف کنندگان افزایش را در انواع کاربردها پیشبینی میکنند. با این حال، دستیابی به این امر نیازمند درک هوش مصنوعی و مکانیسمها و ابزارهای آن است (به عنوان مثال، الگوریتم ها). تد گرینوالد، در توضیح هوش مصنوعی برای آنهایی که متخصص هوش مصنوعی نیستند، میگوید: «به طور کلی هوش مصنوعی هر چیزی است که یک کامپیوتر بتواند انجام دهد که قبلا به عنوان یک وظیفه برای یک انسان در نظر گرفته میشد» [ ۱۹ ].
هدف هوش مصنوعی گسترش قابلیتهای فنآوری اطلاعات (IT) از آنهایی به (۱)تولید، برقراری ارتباط و ذخیره دادهها و همچنین (۲)پردازش دادهها به دانشی است که تصمیم گیرندگان و دیگران نیاز دارند [ ۲۰ ]. یک دلیل این است که حجم دادههای موجود به قدری سریع در حال افزایش است که در حال حاضر پردازش تمام دادههای موجود برای مردم غیر ممکن است. این کار دو انتخاب باقی میگذارد: (۱)بسیاری از دادههای موجود باید نادیده گرفته شوند یا (۲)هوش مصنوعی باید برای پردازش حجم وسیعی از دادههای موجود در بخشهای ضروری اطلاعاتی که تصمیم گیرندگان و دیگران میتوانند درک کنند، توسعه یابد. یادگیری عمیق پلی بین حجم عظیم دادهها و هوش مصنوعی است.
۱)تعاریف: یادگیری عمیق به استفاده از شبکههای عصبی عمیق برای مقادیر انبوهی از دادهها برای یادگیری یک روند با هدف رسیدگی به یک کار اشاره دارد. این کار میتواند از طبقهبندی ساده تا استدلال پیچیده متفاوت باشد. به عبارت دیگر، یادگیری عمیق مجموعهای از مکانیزمهایی است که به طور ایدهآل قادر به استخراج یک راهحل بهینه برای هر مساله با توجه به مجموعه داده ورودی مرتبط و گسترده میباشد. به بیان ساده، یادگیری عمیق، کشف و تحلیل ساختارها / ویژگیهای مهم در دادهها با هدف فرموله کردن یک راهحل برای یک مشکل مشخص است. در اینجا هوش مصنوعی و یادگیری عمیق به هم میرسند. یک نسخه از هدف یا جاهطلبی در پشت هوش مصنوعی این است که ماشین را قادر میسازد تا بهتر از عملکرد مغز انسان عمل کند. یادگیری عمیق وسیلهای برای رسیدن به این هدف است.
۲)معماری یادگیری عمیق: معماریهای یادگیری عمیق بسیاری در زمینههای تحقیقاتی مختلف توسعهیافته اند، به عنوان مثال در کاربردهای NLP با استفاده از شبکههای عصبی بازگشتی (RNNs)[ ۲۱ ]، شبکههای عصبی کانولوشنال (CNNs)[ ۲۲ ]، و اخیرا شبکههای عصبی خود بازگشتی [ ۲۳ ]. ما بحث خود را بر بررسی مدلهای ضروری متمرکز میکنیم که در مقالات مرتبط توضیح داده شدهاند.
پرسپترون چند لایه: یک پرسپترون چند لایه (MLP) حداقل سهلایه (لایههای ورودی، پنهان و خروجی) دارد. یک لایه به سادگی مجموعهای از نرونهایی است که برای تبدیل اطلاعات از لایه قبلی به لایه بعدی عمل میکنند. در معماری MLP، نورونهای یک لایه با یکدیگر ارتباط برقرار نمیکنند. یک MLP از توابع فعالسازی غیر خطی استفاده میکند. هر گره در یک لایه به تمام گرههای لایه بعدی متصل میشود، و یک شبکه کاملا متصل ایجاد میکند (شکل ۱). MLP ها سادهترین نوع شبکههای عصبی پیشخور (Feed Forward) هستند. شبکههای عصبی پیشخور نشاندهنده یک دسته عمومی از شبکههای عصبی هستند که در آن اتصالات بین گرهها هیچ چرخهای ایجاد نمیکنند، یعنی در یک شبکه عصبی پیشخورد هیچ چرخهای از جریان اطلاعات وجود ندارد.
شبکههای عصبی کانولوشنال: شبکههای عصبی کانولوشنال (Convolutional Neural Networks) که معماری آنها از قشر بینایی انسان الهام میگیرد، یک زیر رده از شبکههای عصبی پیشخور هستند. شبکههای عصبی کانولوشنال پس از عملیات ریاضی اساسی، کانولوشن نام گذاری میشود، که معیاری برای قابلیت همکاری توابع ورودی آن ارایه میدهد. شبکههای عصبی کانولوشنی معمولا در شرایطی به کار میروند که دادهها باید با یک نقشه داده دو بعدی یا سهبعدی نمایش داده شوند. در نمایش نقشه دادهها، نزدیکی نقاط داده معمولا مربوط به همبستگی اطلاعاتی آنها است.
در شبکههای عصبی کانولوشنی که ورودی تصویر است، نقشه دادهها نشان میدهد که پیکسل های تصویر همبستگی بالایی با پیکسل های همسایه خود دارند. در نتیجه، لایههای کانولوشنال سه بعد دارند: عرض، ارتفاع و عمق. این فرض احتمالا توضیح میدهد که چرا اکثر تلاشهای تحقیقاتی اختصاصدادهشده به CNNها در حوزه بینایی ماشین انجام میشوند [ ۲۴ ].
یک سیانان تصویری را به عنوان مجموعهای از مقادیر عددی در نظر میگیرد. پس از انجام عملیات ریاضی خاص، تصویر را در یک فضای خروجی جدید نشان میدهد. این عملیات همچنین استخراج ویژگی نامیده میشود، و به ضبط و نمایش محتوای تصویر کلیدی کمک میکند. ویژگیهای استخراجشده میتوانند برای تحلیل بیشتر، برای وظایف مختلف استفاده شوند. یک مثال، طبقهبندی تصویر است که هدف آن طبقهبندی تصاویر با توجه به برخی کلاسهای از پیش تعریفشده است. مثالهای دیگر شامل تعیین این است که کدام اشیا در یک تصویر وجود دارند و در کجا واقع شدهاند. شکل ۲ را ببینید. در مورد استفاده از شبکههای کانولوشنی برای پردازش زبان طبیعی، ورودیها عبارات یا اسنادی هستند که به صورت ماتریس نشان داده میشوند. هر ردیف از ماتریس با یک عنصر زبانی مانند یک کلمه یا یک کاراکتر در ارتباط است. اکثر معماریهای سیانان نمایش کلمات یا جملات را در مرحله آموزش خود یاد میگیرند. معماریهای مختلفی از سیانان در وظایف مختلف طبقهبندی مانند آنالیز تشخیص و طبقهبندی موضوعی مورد استفاده قرار گرفتند [ ۲۲ ]، [ ۲۵ ] - [ ۲۷ ]. از شبکههای عصبی کانولوشنی برای طبقهبندی کاهش و وابستگی نیز استفاده شده است [ ۲۸ ]، [ ۲۹ ].
شبکه عصبی بازگشتی: اگر ما یک رشته از شبکههای پیشخور را مرتب کنیم و خروجی هر شبکه را به عنوان ورودی به شبکه بعدی تغذیه کنیم، یک شبکه عصبی بازگشتی (etworkRecurrent Neural N) ساخته خواهد شد. مانند شبکههای عصبی پیش خور، لایههای یک RNN میتوانند به لایههای ورودی، پنهان و خروجی طبقهبندی شوند. در قالبهای زمانی گسسته، توالیهای بردارهای ورودی به عنوان ورودی، یک بردار در یک زمان تغذیه میشوند، به عنوان مثال، بعد از قرار دادن هر دسته از بردارها، انجام برخی عملیاتها و به روز رسانی وزنهای شبکه، دسته ورودی بعدی به شبکه تغذیه خواهد شد. بنابراین، همانطور که در شکل ۳ نشانداده شدهاست، در هر گام زمانی ما پیشبینی میکنیم و از پارامترهای لایه پنهان فعلی به عنوان ورودی گام زمانی بعدی استفاده میکنیم.
لایههای پنهان در شبکههای عصبی بازگشتی میتوانند اطلاعات را از گذشته، به عبارت دیگر حافظه حمل کنند. این ویژگی باعث میشود که آنها به طور خاص برای کاربردهایی که با یک توالی از ورودیها مانند مدلسازی زبان سر و کار دارند، مفید واقع شوند [ ۳۰ ]. این مفهوم بعدا به طور مفصل توضیح داده خواهد شد.
شبکه حافظه طولانی کوتاهمدت (emoryLong Short Term M) یکی از پراستفادهترین کلاسهای شبکههای بازگشتی است. LSTMها تلاش میکنند تا حتی وابستگیهای طولانیمدت بین ورودیها از مراحل زمانی مختلف را بدست آورند. تشخیص گفتار و ترجمه ماشینی مدرن اغلب بر روی LSTM ها تکیه دارد.
رمزکنندههای خودکار: رمزکنندههای خودکار روشهای نظارت نشده را در یادگیری عمیق اجرا میکنند. آنها به طور گسترده در کاهش ابعاد یا برنامههای کاربردی NLP استفاده میشوند که از توالی به مدلسازی توالی تشکیل شدهاند (نگاه کنید به بخش III - B [ ۳۰ ])شکل ۴ طرح کلی یک رمزگذار اتوماتیک را نشان میدهد. از آنجا که رمزکنندههای خودکار بدون نظارت هستند، هیچ برچسبی متناظر با هر ورودی وجود ندارد. هدف آنها یادگیری یک نمایش کد برای هر ورودی است. رمزگذار مانند یک شبکه عصبی پیشخور است که در آن ورودی در یک بردار کدگذاری میشود. رمزگشا به طور مشابه با رمزگذار عمل میکند، اما برعکس، یعنی، ساخت خروجی براساس ورودی کدگذاری شده. در کاربردهای فشردهسازی داده، ما میخواهیم خروجی ایجاد شده تا حد ممکن به ورودی اصلی نزدیک باشد. رمزکنندههای خودکار دچار اتلاف میشوند، به این معنی که خروجی بازسازی تقریبی ورودی است.
شبکههای مولد خصمانه: گودفلو [ ۳۲ ] شبکههای مولد خصمانه (Generative Adversarial Networks) را معرفی کرد. همانطور که در شکل ۵ نشانداده شدهاست، یک شبکه مولد خصمانه ترکیبی از دو شبکه عصبی، یک تفکیککننده و یک ژنراتور است. کل شبکه در یک فرآیند تکراری آموزشدیده است. اول، شبکه ژنراتور یک نمونه جعلی تولید میکند. سپس شبکه متمایزکننده سعی میکند تعیین کند که آیا این نمونه (مثلا: یک تصویر ورودی) واقعی است یا جعلی، یعنی، آیا از دادههای آموزشی واقعی (دادههای استفادهشده برای ساخت مدل) آمدهاست یا خیر. هدف ژنراتور این است که تفکیککننده را طوری گول بزند که تفکیککننده معتقد باشد نمونههای مصنوعی (یعنی تولید شده) تولید شده توسط ژنراتور واقعی هستند.
این فرآیند تکراری تا زمانی ادامه مییابد که ژنراتور نمونههایی را تولید کند که توسط تفکیککننده قابلتشخیص نباشند. به عبارت دیگر، احتمال طبقهبندی یک نمونه به صورت جعلی یا واقعی مانند تغییر یک سکه منصفانه برای متمایزکننده است. هدف از مدل مولد به دست آوردن توزیع دادههای واقعی است در حالی که تفکیککننده تلاش میکند تا دادههای جعلی را شناسایی کند. یکی از ویژگیهای جالب GANها (با توجه به مولد بودن) این است که وقتی مرحله آموزش تمام شد، نیازی به شبکه تشخیص وجود ندارد، بنابراین ما فقط میتوانیم با شبکه مولد کار کنیم. به عبارت دیگر، داشتن دسترسی به مدل تولیدی آموزشدیده کافی است.
انواع مختلفی از GANها معرفی شدهاند، به عنوان مثال، Sim GAN [ ۷ ]، Wasserstein GAN [ ۳۳ ]، info GAN [ ۳۴ ]، و DC GAN [ ۳۵ ]. در یکی از زیباترین پیادهسازیهای GAN (۳۶)، صورت کاملا مصنوعی اما در عین حال کامل، چهرههای مشهور تولید میشوند؛ تصاویر واقعی نیستند، بلکه عکسهای جعلی هستند که توسط شبکه تولید شدهاند. در دامنه پردازش زبان طبیعی، اغلب از GANها برای تولید متن استفاده میشود [ ۳۷ ]، [ ۳۸ ].
ب. انگیزه استفاده از یادگیری عمیق در پردازش زبان طبیعی
کاربردهای یادگیری عمیق براساس انتخابهای (۱) نمایش ویژگی و (۲) الگوریتم یادگیری عمیق در کنار معماری پیشبینی میشوند. اینها به ترتیب با نمایش داده و ساختار یادگیری در ارتباط هستند. برای نمایش دادهها، به طرز شگفت آوری، معمولا یک جدایی بین این که چه اطلاعاتی برای کار در دسترس مهم هستند، وجود دارد، در مقابل این که چه نمایشی در واقع نتایج خوبی را ارایه میدهد. برای مثال، در تحلیل احساسی، واژگان، ساختار نحوی، و متن توسط برخی از زبانشناسان به عنوان اهمیت اولیه فرض میشوند. با این وجود، مطالعات قبلی براساس مدل کیسه کلمات (BoW) عملکرد قابل قبولی را نشان دادند [ ۳۹ ]. مدل کیسه کلمات [ ۴۰ ]، که اغلب به عنوان مدل فضای برداری دیده میشود، شامل نمایشی است که فقط برای کلمات و فرکانس وقوع آنها محاسبه میشود. BoW ترتیب و تعامل کلمات را نادیده میگیرد و با هر کلمه به عنوان یک ویژگی منحصر به فرد رفتار میکند. BoW ساختار نحوی را نادیده میگیرد، با این حال نتایج مناسبی را برای آن چه که برخی کاربردهای وابسته به نحو در نظر میگیرند ارایه میدهد. این مشاهده نشان میدهد که نمایشهای ساده، هنگامی که با مقادیر زیادی از دادهها همراه شوند، ممکن است به خوبی یا بهتر از نمایشهای پیچیدهتر عمل کنند. این یافتهها این استدلال را به نفع اهمیت الگوریتم ها و معماریهای یادگیری عمیق تایید میکنند.
اغلب پیشرفت NLP به مدلسازی موثر زبان محدود میشود. یکی از اهداف مدلسازی زبان آماری نمایش احتمالاتی توالی کلمات در زبان است که به دلیل قضیه نفرین ابعاد، کار پیچیدهای است. تحقیق ارائهشده در [ ۴۱ ] یک پیشرفت بزرگ برای مدلسازی زبان با شبکههای عصبی با هدف غلبه بر نفرین ابعاد با (۱) یادگیری نمایش توزیعی کلمات و (۲) ارائه یک تابع احتمال برای دنبالهها بود.
به نظر میرسد که چالش اصلی در تحقیقات NLP، در مقایسه با حوزههای دیگر مانند بینایی کامپیوتری، پیچیدگی دستیابی به نمایش عمیق زبان با استفاده از مدلهای آماری باشد. وظیفه اصلی در برنامههای NLP، ارایه نمایشی از متون، مانند اسناد است. این شامل یادگیری ویژگی، یعنی استخراج اطلاعات معنیدار برای فعال کردن پردازش و تحلیل بیشتر دادههای خام است.
روشهای سنتی با تغییر دادن زمان بر ویژگیها، از طریق تجزیه و تحلیل دقیق انسانی از یک کاربرد خاص شروع میشوند، و با توسعه الگوریتم ها برای استخراج و استفاده از نمونههای آن ویژگیها دنبال میشوند. از سوی دیگر، روشهای یادگیری ویژگی نظارت شده عمیق بسیار داده محور هستند و میتوانند در تلاشهای عمومی با هدف ارایه یک نمایش داده قوی مورد استفاده قرار گیرند.
با توجه به مقادیر گسترده دادههای بدون برچسب، یادگیری ویژگی بدون نظارت به عنوان یک کار مهم در NLP در نظر گرفته میشود. در اصل، یادگیری ویژگی بدون نظارت، یادگیری ویژگیها از دادههای برچسب گذاری نشده به منظور ارایه یک نمایش ابعادی پایین از یک فضای داده ابعادی بالا است. رویکردهای مختلفی مانند خوشهبندی K-means و تحلیل مولفههای اصلی پیشنهاد شده و با موفقیت در این راستا پیادهسازی شدهاند. با ظهور یادگیری عمیق و فراوانی دادههای برچسب نخورده، یادگیری ویژگی بدون نظارت تبدیل به یک وظیفه حیاتی برای یادگیری نمایش، یک پیشرو در برنامههای کاربردی NLP میشود. در حال حاضر، بیشتر وظایف NLP متکی بر دادههای حاشیهنویسی شده هستند، در حالی که برتری دادههای حاشیهنویسی نشده بیشتر به تحقیقات در اعمال نفوذ روشهای عمیق برگرفته از داده بدون نظارت انگیزه میدهد.
با توجه به برتری بالقوه رویکردهای یادگیری عمیق در برنامههای NLP، انجام تجزیه و تحلیل جامع روشها و معماریهای مختلف یادگیری عمیق با توجه خاص به برنامههای NLP ضروری به نظر میرسد.
این متن ترجمه ۴ صفحه ابتدایی (تا انتهای بخش II) از مقاله «atural Language Processing Advancements By Deep Learning : A Survey» می باشد برای مطالعه ادامه این مقاله به همراه ترجمه فارسی میتوانید به رایگان از مقالهخوان ترجمیار (کلیک کنید) استفاده کنید.
مطلبی دیگر از این انتشارات
چگونه نرخ ترجمه خود را تعیین کنید
مطلبی دیگر از این انتشارات
محققان عوامل محیطی را شناسایی میکنند که خطر بیماری التهابی شکم و روده را افزایش میدهد
مطلبی دیگر از این انتشارات
کمخونی در فضا: حضور در فضا سلولهای قرمز خون بیشتری را از بین میبرد