?
استاد راهنما: دکتر عباس عکاسی
نگارنده: کمیل آقابابایی، ارشد نرم افزار
تابستان 1400
سپاسگزاری:
برخود لازم میدانم از استاد فرهیخته، جناب آقای دکتر عباس عکاسی که در طول انجام این پژوهش از راهنماییهای عالمانه و دلسوزانهی ایشان بهره مند بودم، تشکر و قدردانی کنم.
با افزایش تعداد وب سایتهای ارتباط جمعی , مردم تمایل دارند دیدگاههای خود را در مورد همه چیز به صورت آنلاین به اشتراک بگذارند. این راهی مناسب برای انتقال پیامها به کاربران نهایی در یک موضوع خاص است. آنالیز احساسی شاخهای از پردازش زبان طبیعی[1] است که به شناسایی نظرات کاربران نسبت به موضوعات خاص اشاره دارد. این کار در زمینههای مختلفی مانند بازاریابی، خدمات مشتری و غیره مورد استفاده قرار میگیرد. از سوی دیگر، یادگیری عمیق[2] به دلیل نقش موفقیتآمیز آن در چندین کار پردازش زبان طبیعی محبوب شدهاست. هدف این مقاله ارائه یک معماری یادگیری عمیق نوین برای تحلیل احساسات[3]فارسی است . با توجه به مدل پیشنهادی، ویژگیهای محلی توسط شبکههای عصبی کانولوشن[4] استخراج میشوند و وابستگیهای طولانیمدت توسط LSTM دوطرفه[5]، بنابراین این مدل میتواند از تواناییهای شبکههای عصبی کانولوشن و LSTM دوطرفه بهره ببرد. علاوه بر این، عملکرد روش پیشنهادی را با بهرهگیری از دو مدل نمایش کلمات Word2vec و BERT با هم مورد مقایسه قرار میدهیم. این اولین تلاش است که یک مدل یادگیری عمیق ترکیبی را با بهرهگیری از نمایش کلمات BERT، برای تحلیل احساسات فارسی مورد استفاده قرار میگیرد .
ما مدل پیشنهادی را بر روی مجموعه دادههای فارسی و انگلیسی که در این مطالعه معرفی شدهاست، ارزیابی میکنیم . نتایج تجربی اثربخشی مدل پیشنهادی را با دقت ۸۵ % در زبان فارسی و 88% در زبان انگلیسی نشان میدهد .
کلمات کلیدی: تعیین قطبیت متن، ترکیب مدلهای شبکه عمیق، بردارهای کلمات ایستا و پویا، LSTMدوطرفه، شبکه عصبی کانولوشن
[1] NLP: Neuro linguistic programming
[2] Deep Learning
[3] Sentiment analysis
[4] Convulsive neural networks
[5] Bidirectional Long short-term memory
فهرست مطالب
عنوان صفحه
1-5- جنبه جدید و نوآوری تحقیق.. 9
2-3-1- مدل سازی زبانی آماری.. 14
2-5-1- شبکه عصبی کانولوشن.. 30
2-5-2- شبکه عصبی LSTM دوطرفه. 32
3-5-1- شبکه عصبی کانولوشن.. 57
3-5-3- اتصال به صورت کامل.. 60
فصل چهارم: ارزیابی روش پیشنهادی
فصل پنجم: نتیجهگیری و پیشنهادات
5-2- زمینههای تحقیقاتی آتی.. 70
فهرست جداول
جدول (2-1)طرح تعبیه سازی کلمات با استفاده از کدگذاری ONE-HOT برای یک لغت نامه ۹ کلمهای.. 20
جدول (2-2)کد گذاری سفارشی.. 22
جدول (4-1)توزیع قطبیت نظرات در مجموعه داده فارسی.. 63
جدول (4-2) توزیع قطبیت نظرات در مجموعه داده انگلیسی.. 64
جدول (4-3) مقایسه روش پیشنهادی و مقاله پایه براساس معیارهای ارزیابی.. 65
فهرست اشکال
شکل (2-1) مدل N-Gram در سطح کلمات.. 16
شکل (2-2) تعبیه کلمات [15]. 18
شکل (2-5) Skip-gram & CBOW... 27
شکل (3-1) طرح روش پیشنهادی.. 42
شکل (3-2) نحوه ی بهبود داده ها 43
شکل (3-3) عملیات پیش پردازش بروی داده ها 44
شکل (3-4) نوع ویژگی جهت اصلاح داده گمشده 46
شکل (3-5) نحوه پیش بینی لغت.. 49
شکل (3-6) Fine - tuning BERT با استفاده از توکن [CLS] 52
شکل (3-7) Fine - tuning BERT با استفاده از همه توکن.. 53
شکل (3-8) الگوریتمهای دسته بندی.. 54
شکل (3-9) معماری روش پیشنهادی.. 57
شکل (3-11) طرح شماتیک روش پیشنهادی.. 60
** جهت دریافت متن کامل این پژوهش درخواست خود را به آدرس زیر ارسال نمائید: