کمیل آقابابایی
کمیل آقابابایی
خواندن ۳ دقیقه·۳ سال پیش

تعیین قطبیت نظرات با ترکیب مدل‌های CNN و BLSTM با بهره گیری از بردارهای کلمات Static و Dynamic

?

استاد راهنما: دکتر عباس عکاسی

نگارنده: کمیل آقابابایی، ارشد نرم افزار

تابستان 1400

#عشق
#عشق


سپاسگزاری:

برخود لازم می‌دانم از استاد فرهیخته، جناب آقای دکتر عباس عکاسی که در طول انجام این پژوهش از راهنمایی‌های عالمانه و دلسوزانه‌ی ایشان بهره مند بودم، تشکر و قدردانی کنم.

چکیده

با افزایش تعداد وب سایت‌های ارتباط جمعی , مردم تمایل دارند دیدگاه‌های خود را در مورد همه چیز به صورت آنلاین به اشتراک بگذارند. این راهی مناسب برای انتقال پیام‌ها به کاربران نهایی در یک موضوع خاص است. آنالیز احساسی شاخه‌ای از پردازش زبان طبیعی[1] است که به شناسایی نظرات کاربران نسبت به موضوعات خاص اشاره دارد. این کار در زمینه‌های مختلفی مانند بازاریابی، خدمات مشتری و غیره مورد استفاده قرار می‌گیرد. از سوی دیگر، یادگیری عمیق[2] به دلیل نقش موفقیت‌آمیز آن در چندین کار پردازش زبان طبیعی محبوب شده‌است. هدف این مقاله ارائه یک معماری یادگیری عمیق نوین برای تحلیل احساسات[3]فارسی است . با توجه به مدل پیشنهادی، ویژگی‌های محلی توسط شبکه‌های عصبی کانولوشن[4] استخراج می‌شوند و وابستگی‌های طولانی‌مدت توسط LSTM دوطرفه[5]، بنابراین این مدل می‌تواند از توانایی‌های شبکه‌های عصبی کانولوشن و LSTM دوطرفه بهره ببرد. علاوه بر این، عملکرد روش پیشنهادی را با بهره‌گیری از دو مدل نمایش کلمات Word2vec و BERT با هم مورد مقایسه قرار می‌دهیم. این اولین تلاش است که یک مدل یادگیری عمیق ترکیبی را با بهره‌گیری از نمایش کلمات BERT، برای تحلیل احساسات فارسی مورد استفاده قرار می‌گیرد .

ما مدل پیشنهادی را بر روی مجموعه داده‌های فارسی و انگلیسی که در این مطالعه معرفی شده‌است، ارزیابی می‌کنیم . نتایج تجربی اثربخشی مدل پیشنهادی را با دقت ۸۵ % در زبان فارسی و 88% در زبان انگلیسی نشان می‌دهد .

کلمات کلیدی: تعیین قطبیت متن، ترکیب مدل‌های شبکه عمیق، بردارهای کلمات ایستا و پویا، LSTMدوطرفه، شبکه عصبی کانولوشن

[1] NLP: Neuro linguistic programming

[2] Deep Learning

[3] Sentiment analysis

[4] Convulsive neural networks

[5] Bidirectional Long short-term memory

#روش پیشنهادی
#روش پیشنهادی


فهرست مطالب

عنوان صفحه

فصل اول: کلیات تحقیق

1-1- مقدمه. 3

1-2- بیان مسئله. 3

1-3- اهداف تحقیق.. 8

1-4- فرضیه‌های تحقیق.. 9

1-5- جنبه جدید و نوآوری تحقیق.. 9

1-6- ساختار پژوهش. 9

فصل دوم:ادبیات و پیشینه تحقیق

2-1- مقدمه. 12

2-2- آنالیز احساسات.. 12

2-2-1- سطح سند. 12

2-2-2- سطح جمله. 13

2-2-3- سطح بعد(جنبه) 13

2-3- مدل‌های زبانی.. 13

2-3-1- مدل سازی زبانی آماری.. 14

2-3-2- مدلهای زبانی عصبی.. 16

2-4- تعبیه کلمات.. 17

2-4-1-بردار کلمه. 18

2-4-2- رمزگذاری One-hot 19

2-4-3- صندوقچه کلمات.. 21

2-4-4- کدگذاری سفارشی.. 22

2-4-5- Word2Vec. 24

2-4-5-1- CBOW... 26

2-4-5-2- Skip-gram.. 26

2-4-6- BERT. 27

2-5-یادگیری عمیق.. 29

2-5-1- شبکه عصبی کانولوشن.. 30

2-5-2- شبکه عصبی LSTM دوطرفه. 32

2-6- یادگیری ماشین ترکیبی 34

2-7-پیشینه پژوهش... 35

فصل سوم: روش پیشنهادی

3-1- مقدمه. 41

3-2- طرح روش پیشنهادی.. 42

3-3- پیش پردازش... 43

3-3-1- نرمالسازی.. 44

3-3-2- اصلاح دادهی گمشده 45

3-3-3- تقسیم بندی.. 47

3-4- استخراج ویژگی.. 47

3-4-1- Word2vec. 47

3-4-2- BERT. 50

3-5- طبقه بندی.. 53

3-5-1- شبکه‌ عصبی کانولوشن.. 57

3-5-1-1- ماکس Pooling. 57

3-5-1-2- Drop out 58

3-5-2- شبکه‌ LSTM دوطرفه. 58

3-5-3- اتصال به صورت کامل.. 60

فصل چهارم: ارزیابی روش پیشنهادی

4-1- مقدمه. 62

4-2- محیط شبیه سازی.. 62

4-3- مجموعه داده 63

4-4- پارامترهای ارزیابی.. 64

4-5- نتایج روش پیشنهادی.. 65

4-6- نتیجه گیری.. 66

فصل پنجم: نتیجه‌گیری و پیشنهادات

5-1- نتیجه‌گیری.. 69

5-2- زمینه‌های تحقیقاتی آتی.. 70

منابع. 70

فهرست جداول

جدول (2-1)طرح تعبیه سازی کلمات با استفاده از کدگذاری ONE-HOT برای یک لغت نامه ۹ کلمه‌ای.. 20

جدول (2-2)کد گذاری سفارشی.. 22

جدول (4-1)توزیع قطبیت نظرات در مجموعه داده فارسی.. 63

جدول (4-2) توزیع قطبیت نظرات در مجموعه داده انگلیسی.. 64

جدول (4-3) مقایسه روش پیشنهادی و مقاله پایه براساس معیارهای ارزیابی.. 65

فهرست اشکال

شکل (2-1) مدل N-Gram در سطح کلمات.. 16

شکل (2-2) تعبیه کلمات [15]. 18

شکل (2-3) کدگذاری one-hot 19

شکل (2-4) Word2Vec. 25

شکل (2-5) Skip-gram & CBOW... 27

شکل (2-6) BERT. 29

شکل (2-7) CNN.. 31

شکل (2-8) BLSTM... 33

شکل (3-1) طرح روش پیشنهادی.. 42

شکل (3-2) نحوه ی بهبود داده ها 43

شکل (3-3) عملیات پیش پردازش بروی داده ها 44

شکل (3-4) نوع ویژگی جهت اصلاح داده گمشده 46

شکل (3-5) نحوه پیش بینی لغت.. 49

شکل (3-6) Fine - tuning BERT با استفاده از توکن [CLS] 52

شکل (3-7) Fine - tuning BERT با استفاده از همه توکن.. 53

شکل (3-8) الگوریتمهای دسته بندی.. 54

شکل (3-9) معماری روش پیشنهادی.. 57

شکل (3-10) LSTM UNIT. 59

شکل (3-11) طرح شماتیک روش پیشنهادی.. 60

** جهت دریافت متن کامل این پژوهش درخواست خود را به آدرس زیر ارسال نمائید:

babaiekomeil@gmail.com


تعیین قطبیت متنترکیب مدل‌های شبکه عمیقبردارهای کلمات ایستا و پویاشبکه عصبی کانولوشن
شاید از این پست‌ها خوشتان بیاید