Maryem Rhanoui 1,2 , Mounia Mikram 2,3 , Siham Yousfi 2,4 and Soukaina Barzali 2
* Correspondence: mrhanoui@esi.ac.ma
Received: 30 June 2019; Accepted: 23 July 2019; Published: 25 July 2019
کمیل آقابابایی
ارشد مهندسی نرمافزار
چکیده : آنالیز احساسی سطح اسناد یک کار چالش برانگیز است که با توجه به اندازه بزرگ متن ، که منجر به فراوانی کلمات و نظرات در زمانهای متفاوت در همان سند میشود.
این تحلیل به ویژه در تجزیه و تحلیل مقالات رسانهای و پست بلاگ درباره یک محصول یا شرکت خاص مفید است ، و نیاز به تمرکز بالایی دارد ، به خصوص زمانی که موضوع مورد بحث حساس است . با این وجود ، اغلب مدلها و تکنیکهای موجود برای پردازش متن کوتاه از شبکههای اجتماعی و پلت فرم های مشترک طراحی شدهاند . در این مقاله ، ما ترکیبی از شبکههای عصبی مصنوعی CNN و BiLSTM را با تعبیه Doc2vec ، مناسب برای تحلیل نظر در متون طولانی پیشنهاد میکنیم . مدل CNN - BiLSTM با CNN ، LSTM ، BiLSTM و CNN - LSTM با بهرهگیری از Word۲vec / Doc۲vec مقایسه شدهاست . مدل CNN - BiLSTM در مقالات روزنامههای فرانسوی به کار گرفته شد و از مدلهای دیگر با دقت ۹۰.۶۶ % پیشی گرفت.
کلمات کلیدی : تحلیل احساسی ؛ سطح اسناد ؛ Doc۲vec ؛ CNN - BiLSTM
مقدمه
نظر یا تحلیل احساسات مجموعهای از عملیات زبانی متعلق به پردازش خودکار زبان طبیعی است که به متون دیجیتال, یعنی مقالات و نظرات شبکههای اجتماعی و نیز مقالات مطبوعاتی اطلاق میشود. هدف آن شناسایی احساسات بیانشده در متن و پیشبینی قطبش آن (مثبت یا منفی) نسبت به یک سوژه مشخص است.
این تحلیل بسیار کاربردی است, به ویژه با ظهور شبکههای اجتماعی, افراد شروع به بیان نظرات خود به راحتی و در کوتاهترین زمان میکنند که پردازش دستی این تعداد زیادی از نظرات را بسیار دشوار میکند. یادگیری ماشینی و مدلهای یادگیری عمیق هنگامی که برای متن کوتاه اعمال میشوند به لطف فراوانی مجموعه دادههای استخراجشده از شبکههای اجتماعی و تعداد کم کلماتی که شناسایی نظرات را تسهیل میکنند، به عملکرد بالایی دست مییابند. با این حال، در مورد یک سند، کار پیچیدهتر است چون حاوی تعداد زیادی کلمات است و ارتباط معنایی بین جملات پیچیدهتر است. محققان علاقه رو به رشدی را در تکنیکهای تحلیل این توده بزرگ دادهها نشان دادهاند تا نقطه نظرات بیانشده در یک سوژه مشخص را استخراج کنند. یادگیری عمیق نشانه تکامل این تحلیل با توجه به عملکرد آن در تمامی موارد مربوط به پردازش خودکار زبان طبیعی, یعنی خلاصه متن, پیشبینی کلمه و دستهبندی متن است.
آنالیز احساسی یک موضوع تحقیقاتی محبوب است؛ چندین مطالعه درباره اثربخشی شبکههای عصبی عمیق در این کار را تحقیق و اثبات کردهاند. در حقیقت، شبکههای عصبی مصنوعی (CNN) به عملکرد عالی در طبقهبندی اسناد دست یافتهاند . شبکه عصبی حافظه کوتاهمدت طولانیمدت LSTM نیز در پردازش زبان طبیعی محبوب است . به طور انفرادی، مدلهای دوگانه و تکراری را میتوان ازنظر عملکرد در نظر گرفت. همانطور که CNN یک مدل استخراج ویژگی قوی است و بهتر است با شبکه بزرگتر ادغام و ترکیب شود ، چالش اکنون در ترکیب قرار دارد و این مدلها را برای بهرهبرداری از نقاط قوت یکدیگر ترکیب میکند.
به علاوه، با توجه به رشد شبکههای اجتماعی که به یک منبع غنی از اطلاعات تبدیل شدهاند، تحقیقات بر روی تحلیل متن کوتاهی متمرکز شدهاست. آنالیز احساسی سطح اسناد یک کار چالش برانگیز تر است زیرا ساختار، تعداد کلمات و ترکیب عقاید به طور قابلتوجهی از متن کوتاه متفاوت هستند.
بنابراین، سوال تحقیق این است که چگونه یک مدل یادگیری عمیق موثر را پیشنهاد کنیم که با پردازش و طبقهبندی سطح سند تطبیق داده شود. برای پاسخ به این پرسش، سهم ما پیشنهاد یک مدل CNN - BiLSTM است، که ترکیبی از شبکههای عصبی بازگشتی و دو سویه برای تحلیل احساسات در سطح سند با Doc2vec Embedding است. این مدل در مقایسه با مدلهای سی ان ان، LSTM، BiLSTM و CNN - LSTM با تعبیه Doc2vec/ word embedding مقایسه شد و این آزمایش نشان میدهد که مدل CNN - BiLSTM با تعبیه Doc2vec از مدلهای دیگر پیشی گرفتهاست و دقت ۹۰.۶۶ % در دستهبندی مقالات مطبوعات فرانسه کسب کردهاست.
ادامه این مقاله به شرح زیر سازماندهی شدهاست. در بخش ۲، دانش پیشزمینه را ارایه میکنیم. بخش ۳ برخی کارهای مرتبط را ارایه میدهد. بخش ۴ جزییات مدل پیشنهادی CNN - BiLSTM را توضیح میدهد. در نهایت، بخش ۵ نتایج تجربی را ارایه میدهد.
۲. پیشینه و زمینه: آنالیز احساسی
2-1 تجزیه و تحلیل احساسات
عقیده به معنای قضاوت, بررسی یا دیدگاه شخصی است. هر نظر میتواند مثبت, منفی یا خنثی باشد. این طبقهبندی عقیده اخیراً توجه بسیاری را به خود جلب کردهاست, زیرا عقیده به عنصر اصلی سیستمهای پایش شهرت الکترونیکی تبدیل شدهاست.
۲.۱.۱. سطوح تجزیه و تحلیل نظر:
آنالیز نظر میتواند در سطوح مختلف بکار رود، یعنی: سطح کلمه Word level تحلیلی است که قطبیت یک واژه را تعیین میکند، یعنی، اگر یک واژه مثبت، منفی یا خنثی باشد.
سطح جمله Sentence level، تحلیلی است که قطبیت یک جمله را تعیین میکند. اغلب در تجزیه و تحلیل نظر استفاده میشود. از آنجا که برای شبکههای اجتماعی خاص است، این یک توالی از کلمات است که هدف از آن مشخص کردن یک نظر در یک موضوع است.
سطح سند Document level تحلیلی است که قطبیت یک سند را مشخص میکند. در مقایسه با سایر سطوح، سطح دشواری است زیرا هنگامی که تعداد کلمات افزایش مییابد، نویز کلمات افزایش مییابد، که یادگیری را تحریف میکند و پیشبینی قطبش را پیچیده میکند.
2.1.2. Word Embedding
تعبیه کلمات Word Embedding روشی است که در یادگیری عمیق برای پردازش خودکار زبان طبیعی, براساس نمایش کلمات در یک پیکره بزرگ با ارائه مجموعهای از کلمات با اندازه k به فضای برداری از ابعادm به گونه ای که m < k, به منظور تسهیل تحلیل معنایی کلمات و بهبود عملکرد یادگیری استفاده میشود.
یک بردار کلمات AWord Vector شبکهای از نورونهای مصنوعی دو لایه است که توانایی یاد گرفتن چگونگی نشان دادن هر کلمه با یک بردار عدد حقیقی با ویژگیهای معنایی آن را دارند.
Word2vecمیتواند از طریق دو مدل یاد بگیرد:
- استفاده مداوم (پیوسته) از کلمات (CBOW) Continuous Bag of Words براساس پیشبینی یک کلمه از یک متن است. این میتواند یک کلمه یا مجموعهای از کلمات باشد، در نتیجه این مدل یک نقطه بسیار قوی دارد زیرا به منابع زیادی نیاز ندارد. این مدل مبتنی بر محاسبه احتمال لگاریتمی منفی یک کلمه ?با توجه به یک زمینه? است.
- Skip - Gramمشابه CBOW این مدل یک کلمه به عنوان ورودی در نظر گرفته و تمام کلمات را به عنوان خروجی پیشبینی میکند.
یک بردار سند Document Vector تعمیمی از بردار کلمه است که نشاندهنده کل سند در یک بردار دیجیتالی است تا به راحتی شباهت بین اسناد را شناسایی کند. یک بردار سند تعمیمی از بردار کلمه است که نشاندهنده کل سند در یک بردار دیجیتالی است تا به راحتی شباهت بین اسناد را شناسایی کند. این روش میتواند نحوه بازنمایی اسناد را از طریق دو مدل یاد بگیرد, یعنی " کیف توزیع کلمات"Distributed Bag ofWords ( DBOW ) , که معادل Skip - Gramدر Word2vecاست, و حافظه توزیعشده Distributed Memory ( DM ) است.
- Distributed Bag of Words (DBOW)کیف توزیع کلمات به طور تصادفی توزیع احتمال کلمات را در سند از شناسه یک سند, به منظور ایجاد بردار, پیشبینی میکند. نظم کلمات را در نظر نمیگیرد. در طول دوره آموزش, بردار سند و وزنهای کلمه با استفاده از روش شیب تصادفی stochastic gradient, مقداردهی اولیه و به روز میشوند.
- Paragraph Vector - Distributed Memory ( PV - DM ) پاراگراف برداری - حافظه توزیعشده(PV - DM ) ، برخلاف DBOW، یک کلمه را از متن سند پیشبینی میکند . یک مجموعه از کلمات یک پاراگراف را به طور تصادفی و یک شناسه سند به عنوان ورودی میگیرد و سعی دارد یک واژه مرکزی را پیشبینی کند .
2.2. Deep Learning
2.2.1. CNN
شبکههای عصبی کانولوشن یک شکل از شبکههای عصبی مصنوعی هستند که میتوانند اطلاعات را در موقعیتهای مختلف با دقت خوب تشخیص دهند. این مدل مشکلات متعددی را در پردازش تصویر و پردازش خودکار زبان طبیعی مانند تحلیل نظرات, پاسخ به سوالات, خلاصه متن, و با معماری خاص برای تسهیل یادگیری, حل کردهاست. شبکه عصبی کانولوشن یک شبکه چند لایه است, به طوری که خروجی یک لایه ورودی لایه بعدی خواهد بود. این شبکه معمولاً از یک ورودی, یکی تا چند لایه پنهان و یک خروجی تشکیل شدهاست.
2.2.2. RNN-LSTM
شبکه عصبی مصنوعی (RNN) یک شبکه بههمپیوسته و برهمکنش دهنده نورونها است که در آن نورونها به شکل کمانی از وزن به هم متصل میشوند. این نوع شبکه در مورد ورودیهای اندازههای مختلف بسیار مفید است، همچنین برای سریهای زمانی، یعنی ترجمه خودکار، شناسایی گفتار خودکار و شناسایی الگوی خودکار. جهت انتشار اطلاعات در این نوع از شبکه عصبی مصنوعی دو سویه است؛ توالی دادهها را نگه میدارد؛ و این میتواند ارتباط بین ورودی توالیهای بلند را ایجاد کند، زیرا براساس یک حلقه به خاطر حافظه داخلی آن است.
شبکههای عصبی حافظه بلند مدت با استفاده از شبکههای عصبی مصنوعی پیشنهاد شدهاند.آنها یک بسط هستند که قادر به حل مشکل ناپدید شدن گرادیان به خاطر حافظه آن هستند, که امکان خواندن, نوشتن و حذف دادهها را از طریق سه گیت فراهم میکند: اولین اجازه یا بلوکهای بروزرسانی (گیت ورودی) Input Gate را میدهد. دومی یک نورون است اگر براساس وزنهای فراموشی آموختهشده توسط الگوریتم , که اهمیت آن را تعیین میکند گیت فراموشی (Forget Gate); و سوم یک گیت کنترل حالت نورونی در خروجی گیت خروجی(Output Gate) است (شکل 1).
این مدل قدرت خود را به ویژه در ورودیهای با طول بلند مانند تحلیل اسناد نشان دادهاست, در آن رابطه بین کلمات مختلف سند را ایجاد میکند تا لحن خود را با دقت زیاد پیشبینی کند.
2.2.3. RNN-BiLSTM
حافظه کوتاهمدت دوطرفه ( BiLSTM ) یکی از انواع شبکههای عصبی بازگشتی است.این فرآیند دادهها را به دو جهت پردازش میکند, زیرا با دو لایه پنهان کار میکند. این نقطه اصلی واگرایی با LSTM است. این روش نتایج خوبی را در پردازش زبان طبیعی به اثبات رسانده است.
3. RelatedWorks
تحلیل احساسات / عقیده موضوع اصلی تحقیق با استفاده از یادگیری ماشین و مدلهای یادگیری عمیق است. متن کامل این مقاله به زبان انگلیسی میباشد, لطفاً برای مشاهده متن کامل مقاله به بخش انگلیسی مراجعه فرمایید. برای مدلهای یادگیری عمیق, این طبقهبندی نیاز به یک مرحله پاکسازی اساسی و مرحله پیشپردازش (شامل توکنیزه کردن کلمه کلمه, حذف استپ وردها, تبدیل به حروف کوچک و ریشهکن کردن) دارد زیرا کیفیت داده تاثیر قابلتوجهی بر عملکرد مدل یادگیری عمیق دارد.
Pang و همکاران ابتدا مفهوم تحلیل احساسی سطح سند را معرفی کردند. در این بخش, ما به توضیح رویکردهای تحلیل احساسی در هر دو سطح جمله (متن کوتاه) short text) ) و سطح سند (متن بلند ) long text) ) میپردازیم.
3.1. Short Text Sentiment Analysis
دوس سانتوس و Gatti در متن کوتاه کار کردند . آنها یک شبکه عصبی مصنوعی جدید را پیشنهاد کردند که اطلاعات مربوط به کاراکتر به جمله را در متون کوتاه مورد استفاده قرار میدهد و آن را با دو پایگاه داده تایید میکند , بانک درخت احساسی استنفورد ( SSTb )، که شامل جملات از بررسیهای فیلم , و احساس استنفورد در تویتر (SST ) است . آنها یک شبکه به نام " Character Convictional Convictional Neural Network ( CharSCNN ) " را پیشنهاد کردند که از دو لایه convolutionalبرای استخراج ویژگیهای مرتبط کلمات و جملات هر اندازه استفاده میکند . این مدل به ۸۵.۷ % در SSTb و ۸۶.۴ % در STS رسید .
به علاوه، ژو و همکاران LSTM bidirectional را با حداکثر دو بعد max pooling در پایگاه Stanford Sentiment treebank ( STS ) به کار بردند، به طوری که هر بردار با ماتریسی از بعد ۲ نمایش داده میشود . بنابراین، آنها استفاده معمول از ادغام ۲ pooling را برای نمونه مناسبتر برای وظایف مدلسازی توالی تغییر دادند. علاوه بر این، آنها از D2 convolution برای برجسته کردن مهمترین اطلاعات در مورد ماتریس استفاده کردند. ترکیب BLSTM - ۲ DPooling به عملکرد 88.3% دست یافت در حالی که ترکیب BLSTM - ۲ DCNN به عملکرد of %89.5 در پایگاهداده SST۲ دست یافتند.
کیم, یک شبکه سی ان ان ساده را با یک لایه کانولوشنی با استفاده از یک مدل نظارت نشده , بر روی چندین پایگاهداده, به نام بازبینیهای فیلم, sts اطلاعات, مجموعه داده پرسوجو, و بازبینیهای مشتری اعمال کرد. او از یک ماشین کوچک استفاده کرد که نتایج بسیار قدرتمندی داشت.او همچنین از اندازههای مختلف فیلترهای مختلف استفاده کرد و چندین مدل سی ان ان را برای استخراج دادههای مهم آزمایش کرد .او نتیجه گرفت که سی ان ان - استاتیک CNN - staticمدلی است که بهترین عملکرد را ارائه میدهد.
وانگ و همکاران بر روی ترکیبی از CNN و RNN برای آنالیز عقیده در جملات کار کردند. آنها میخواستند از مزایای شبکه CNN و RNN بهرهمند شوند تا دقت بیشتری داشته باشند. آنها از سی ان ان استفاده کردند، که به موقعیت کلمات در جمله حساس است.سپس، آنها از خروجی سی ان ان به عنوان ورودی برای RNN که در طول زمان آموزشدیده بودند، استفاده کردند.
Yenter و Verma [ ۲۸ ] یک مدل CNN - LSTM را برای آنالیز عقیده از پایگاهداده IMDB پیشنهاد کردند . این اثر از یکی دیگر متفاوت است چون آنها نتایج را بعد از به کارگیری لایه LSTMالحاق میکنند . این مدل به ۸۹ % دقت رسید .
شن و همکاران [۲۹] یک طرح ویژه را پیشنهاد کردند که مدلهای CNN و BiLSTM را برای عملکرد بهینه ترکیب میکند. آنها دریافتند که این ترکیب دقتی به میزان ۸۹.۷ % دارد، که بهتر از accuracy هر دو مدل به صورت جداگانه است.
Yoon و همکاران [ ۳۰ ] یک معماری CNN - BiLSTMرا برای پیشبینی احساسات سطح اسناد با استفاده از تعبیه کلمات چند کاناله با بکارگیری Word2vec پیشنهاد کردند . مدلها روی مجموعه دادههای مختلف اعمال شدند و عملکرد متوسط اما متوسط بین ۵۱.۹۷ % و ۷۰.۰۸ % را بدست آوردند .
3.2. Document Level Sentiment Analysis
طبقهبندی اسناد ، هرچند کمتر از تحلیل متن کوتاه شبکههای اجتماعی ، میتواند در مناطق مختلف بسیار مفید باشد ، مانند تجزیه و تحلیل نظرات سیاسی در مطبوعات ، تحلیل نظرات کاربران و پوشش رسانهای . در کار قبلی ما [ ۳۵ ] ، عملکرد مدلهای CNN و LSTM را برای متن بلند مقایسه کردیم و دریافتیم که ترکیب Doc2vec و مدلهای CNNاندکی از عملکرد RNN پیشی گرفتهاست . این به این دلیل است که سی ان ان از مدل Doc۲Vecاستفاده میکند ، که قطبیت کل سند را شناسایی میکند .
Missen و همکاران تحلیل عقیده را در اسناد با استفاده از کلمه " سطح اسناد " با استفاده از یک مجموعه corpus از اسناد مطرح کردند . آنها ابتدا قطبیت کلمات را تعیین کردند، سپس قطبیت کلمات را در یک جمله ترکیب کردند تا قطبش جمله را تعیین کنند و در نهایت قطبیت جملات را با ترکیب امتیاز نهایی برای تشخیص قطبیت سند ترکیب کنند .
Yessenalina و همکاران یک رویکرد دو سطحی مشترک برای طبقهبندی احساسات سند را با ایجاد مفسر خودکار منطقهای پیشنهاد کردند .
رائو و همکاران متون طولانی را برای بهرهبرداری از روابط معنایی بین جملات در طبقهبندی احساسات در سطح اسناد مدلسازی کردند.
فو و همکاران [ ۳۹ ] یک روش جدید به نام Bag Of Meta - Words را پیشنهاد کردند . آنها سند را با بردارهای meta - word نشان دادند ، به طوری که هر بردار اطلاعات معنایی را در این سند مشخص کرده باشد. ویژگی این روش این است که معنایی سند را ثبت میکند .
آنها دقت ۹۰.۸۸ % بدست آوردند .
کار مرتبط در جدول ۱ خلاصه شدهاست.
4. Proposed Model: CNN-BiLSTM and Doc2vec for Document-Level Sentiment Analysis
این مدل دو شبکه عصبی را ترکیب میکند که CNN and BiLSTMنامیده می شود. ما این ترکیب را برای آزمودن سازگاری CNN با BLSTMاجرا کردیم, چون عملکرد BLSTM در تحلیل نظرات مشهور است. نقطه قوت این مدل این است که امکان استخراج حداکثر مقدار اطلاعات از اسناد با استفاده از لایههای کانولوشن CNN را فراهم میکند. این خروجی به ورودی BLSTM تبدیل میشود که اجازه حفظ ترتیب زمانی بین داده در دو جهت را میدهد.
4.1. Model Overview and Motivation
ترکیب مدلهای CNN و RNN نیازمند یک طرح خاص است چرا که هر مدل دارای معماری خاص و نقاط قوت خاص خود است :
· CNN به خاطر توانایی خود برای استخراج ویژگیهای بسیاری از متن معروف است.
· LSTM / BiLSTM ترتیب زمانی بین کلمات در یک سند را نگه میدارد در نتیجه توانایی نادیده گرفتن کلمات غیر ضروری با استفاده از گیت حذف را دارد .
هدف ترکیب این دو مدل , ایجاد مدلی است که از نقاط قوت CNN و BiLSTM بهرهمند شویم , به طوری که ویژگیهای استخراج شده با استفاده از CNN را بدست آورد و از آنها به عنوان ورودی LSTM استفاده کرد . بنابراین , ما مدلی را توسعه میدهیم که این هدف را برآورده میکند, در همین راستا بردارهای ساخته شده در بخش تعبیه embedding)) کلمات بهعنوان ورودی شبکه عصبی کانولوشن استفاده میشوند . پس از آن , چهار فیلتر با اندازه 2 , 3 , 4 و 5 به ترتیب برای 100 زمان بندی اعمال میشوند . پس از هر فیلتر , یک لایه از max pooling برای به روزرسانی و کاهش اندازه دادهها اعمال میشود .
سپس , نتایج تمام لایههای حداکثر تجمع (max pooling ) به منظور ورودی BiLSTM ساخته شده است که برای فیلتر کردن اطلاعات در BiLSTM از سه گیت استفاده می شود. خروجی این مرحله ورودی لایه fully connected layer است که هر قطعه اطلاعات ورودی را با یک قطعه اطلاعات خروجی پیوند میدهد . در نهایت به عنوان تابع فعالسازی برای تخصیص کلاسها به مقالات به منظور تولید خروجی مطلوب استفاده میشود .
بنابراین , معماری زیر را متشکل از سه بخش پیشنهاد میکنیم که با جزییات بیشتر در زیر توضیح داده شدهاند ( شکل - 2 ) :
· بخش پیش پردازش : در این مرحله ، پاکسازی داده و پیش پردازش انجام میشود . سپس ، نمایش اسناد توزیعشده با استفاده از تعبیه Doc2Vec برای آمادهسازی دادهها برای کانولوشن اعمال شدهاست . بردار حاصل به عنوان ورودی به مرحله بعدی منتقل میشود .
· بخش Convolution : در این مرحله , کانولوشن و لایههای max pooling برای استخراج ویژگی به منظور استخراج ویژگیهای سطح بالا به کار میروند . خروجی این مرحله ورودی مرحله بعدی است .
· بخش BiLSTM/fully connected : در این مرحله از لایههای BiLSTM و لایههای fully connected برای طبقهبندی احساسات استفاده میشود . خروجی این مرحله طبقهبندی نهایی سند ( به صورت مثبت , منفی یا خنثی ) است .
4.2. Document Representation
تعبیه کلمات (Word embedding) آمادهسازی دادهها در فرمت مناسب بردار برای ورودی شبکههای عصبی مصنوعی است. از آنجا که ما با متن طولانی سر و کار داشتیم, با اندازه بزرگی برای نشان دادن هر کلمه / پاراگراف در سند توسط یک بردار تست کردیم تا کل بردار کلمه / سند را بسازیم. از آنجایی که ما با متن بلند سروکار داشتیم، هر دو Doc2vec و Word2vec را با یک اندازه بزرگ برای نمایش هر کلمه / پاراگراف در یک سند توسط یک بردار برای ساختن کل کلمه / سند مورد آزمایش قرار دادیم. علاوه بر این ، ما مدلهای Word2vec / Doc2vec را با نامهای CBOW / DBOW و Skip - gram / DM برای دستیابی به عملکرد بهتر ترکیب کردیم .
Word2vec با استفاده از کلمات سند بردارهای متناظر را ایجاد میکند. این رویکرد مبتنی بر دو رویکرد یعنی CBOW و Skip - gram هستند که با هم ترکیب شدهاند تا عملکرد را بهبود بخشند . این روش به طور گسترده برای آنالیز عقیده در متون کوتاه که مختص شبکههای اجتماعی هستند مورد استفاده قرار میگیرد ، اما همچنین برای پردازش متون طولانی نیز مورد استفاده قرار میگیرد .
Doc2vecبردارها را برای هر جمله یا پاراگراف از سند تولید میکند . همچنین براساس دو تکنیک به نامهای DBOW ، که معادل با CBOW برای Word2vecاست و DM ، که معادل Skip - gram است ، میباشد . ما این دو تکنیک را با هم ترکیب کردیم تا به دقت (accuracy)بالا دست یابیم . این روش جدیدتری از Word2vec است و یک روش خاصی برای پردازش سند خاص به حساب می آید .
ما از embedding های Doc2vec برای طبقهبندی اسناد بزرگ استفاده کردیم، چون Doc2vec ثابت کردهاست که عملکرد بهتری نسبت به Word2vec های داده در مجموعه دادههای مختلف دارد [۴۰]. خروجی ماتریسی است که نشاندهنده پیوندهای بین کلمات / جملات / پاراگراف با استفاده از نمایش تعبیه کلمه است , به گونهای که هر کلمه / جمله / پاراگراف یک بردار معادل طول ثابت در ماتریس دارد .
4.3. Convolution Layer
هدف لایه کانولوشن بررسی ترکیب بین جملات و پاراگرافهای مختلف سند با استفاده از فیلترهایی در اندازه های t می باشد. یک شبکه عصبی مصنوعی (CNN) یک معماری استخراج ویژگی است و قرار است در یک شبکه بزرگتر ادغام شود [۶].
یک n - gram یک زیر توالی (sub - sequence) از nکلمه مجاور است که از یک توالی ساخته شده است. اصل اساسی محاسبه , از یک توالی داده شده از کلمات می باشد که تابع احتمال ظاهرشدن کلمه بعدی تعریف میشود
در لایه کانولوشن ، فیلترها به عنوان تشخیص دهنده n - gramعمل میکنند ؛ هر فیلتر برای یک کلاس خاص از n - gramها عمل میکند و بالاترین نمرات را به آنها اختصاص میدهد . گرمهای تشخیص داده شده با بالاترین امتیاز از max pooling عبور داده می شوند.
چهار فیلتر با اندازه 2 , 3 , 4 و 5 به ترتیب برای 100 زمان بندی به کار میرود.
· اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال میکند .
· دومی 90 فیلتر trigram از اندازه ۳ را اعمال میکند .
· سومین 90 فیلتر four - gram از سایز ۴ را اعمال میکند .
· چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال میکند .
پس از هر فیلتر , یک لایه از max pooling برای به روزرسانی و کاهش اندازه دادهها اعمال میشود . پس از آن , نتایج تمام لایههای max pooling به منظور ایجاد ورودی BiLSTM ترکیب می شوند.
4.4. Activation Layer
هر لایه کانولوشن یک تابع خطی تصحیح شده (ReLU ) را اعمال میکند , که اجازه میدهد هر خروجی منفی با یک 0 جایگزین شود , که به عنوان اطلاعات غیر ضروری برای شبکه عصبی در نظر گرفته میشود و در نتیجه غیر خطی بودن شبکه را کاهش می دهد .
4.5. Regularization
منظم سازی از طریق چندین تابع مدیریت میشود که یک شبکه عصبی پیچیده را سازماندهی میکند تا از انطباق بیش از حدoverfitting بر عملکرد مدلهای یادگیری عمیق جلوگیری کند .
ما از دو نوع اصلی، dropout و L۲ استفاده میکنیم، که شامل penalizing large weights in order برای بهینهسازی (optimize) شبکههای عصبی
4.6. Optimization
بهینهسازی در آموزش الگوریتمهای یادگیری عمیق برای به روز رسانی پارامترهای مدل (وزنها و مقادیر بایاس) در طول تکرارها استفاده میشود. استراتژیهای بهینهسازی مختلفی وجود دارند که مقادیر مناسب و بهینه را برای این پارامترها محاسبه میکنند از قبیل Stochastic Gradient Descent ( SGD ) یا تخمین لحظه انطباقیAdaptive Moment Estimation ( Adam ).
SGDالگوریتمهای بهینهسازی غیر انطباقی کلاسیک ((classical non - adaptive optimization algorithmsاست که برای بهینهسازی شبکههای یادگیری عمیق بکار میرود که از یک نرخ یادگیری واحد استفاده میکنند که در طول آموزش تغییر نمیکند. Adam یک روش الحاقی به SGD است که از یک نرخ یادگیری انطباقی برای بهینهسازی شبکهها استفاده میکند که خیلی سریع همگرا میشوند و بهتر عمل میکنند .
5. Experimental Results
5.1. DataSet
ما یک مجموعه داده حاوی ۲۰۰۳ مقالات فرانسوی از روزنامههای ملی و بینالمللی ساختیم. ( TelQuel ، Aujourd ، لو فیگارو ، و LeMonde ، و دیگران ). هر مقاله به طور متوسط ۴۰۰۰ لغت را شامل میشود . مقالات به صورت آنلاین کنار گذاشته شدند و سپس به صورت دستی برچسب زدند تا مجموعه دادهها را بسازند .توزیع قطبیت آن به شرح زیر است : مقالات خنثی 1247 ، ۴۷۴ مقاله مثبت و ۲۸۲ منفی ( جدول ۲ ) .
مجموع داده با ۲۰۰۳ ورودی به سه بخش تقسیم شد ، یعنی آموزش ، اعتبار سنجی و آزمایش) (training , validation and testing ، به صورت زیر توزیع شد : ۷۵ % ( ۱۵۰۲ ورودی ) برای آموزش مدل و ۲۵ % ( ۵۰۱ ورودی ) برای اعتبار سنجی ( ۳۷۵ مدخل ) و آزمایش ( ۱۲۶ ورودی ) توزیع شد .
مقالات استخراجشده مربوط به امور سیاسی ، نظرات در مورد یک شرکت دادهشده و وقایع جاری عمومی ، و برتری با مقالات سیاسی است که در مورد یک رویداد اخیر ابراز عقیده میکنند .
عقاید سیاسی را میتوان در انتخابات , احزاب , نمایندگان سیاسی و یک کشور مشخص کرد . این اطلاعات نیازمند پردازش خاصی است , زیرا اکثر تصمیمات استراتژیک براساس آن هستند .به ویژه اطلاعات امور سیاسی و سیاسی نقش فعالی در شکلگیری افکار عمومی ایفا میکند ; چرا که اکثر شهروندان آن را منبع اولویت اطلاعات میدانند و اعتبار بالایی به آن میدهند .
5.2. Results
ما عملکرد پیکره بندیهای مختلفی را برای پردازش اسناد متنی طولانی مقایسه کردیم. بنابراین دقت accuracy با توجه به سه تکرار مختلف محاسبه شد ( یعنی ، ۶ ، ۸ و ۱۰ ) ، بین دو مقدار اندازه دسته ( یعنی ۳۲ و ۶۴ ) ، و بهینه سازی SGD و Adam ( جدول ۳ ، بالاترین مقدار به رنگ قرمز پررنگ میشود ) .
دقت به نسبت پیشبینیهای درست انجامشده توسط این مدل اشاره دارد .
ما عملکرد CNN - BiLSTM را با استفاده از تعبیه کلمات Doc2vec با مدلهای مختلف CNN ، LSTM ، BiLSTM و CNN - LSTMمقایسه و برای همه آنها دقت را اندازهگیری کردیم .
5.3. Comparaison
ما مدل پیشنهادی CNN-BiLSTM را با مدلهای CNN, LSTM, BiLSTM و CNN-LSTMمقایسه کردیم.
5.3.1. CNN
مدل شبکه CNN از نظر استخراج ویژگی قدرتمند است , که در تحلیل نظرات بسیار جالب است , به خصوص هنگامی که با مقالههای بلند سر و کار دارید و استخراج ویژگیهای آن دشوار است .
مدل CNN به صورت زیر پیکربندی شدهاست :
· حداکثر تعداد بردارها که میتوانند از یک سند ایجاد شوند 600 است.
· اندازه دادههای ورودی شبکه عصبی 600 داده شد .
· چهار لایه کانولوشن با تابع فعالسازی بازگشتی عبارتند از :
- اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال میکند .
- دومی 90 فیلترtrigram از اندازه ۳ را اعمال میکند .
- سومین 90 فیلترfour - gram از سایز ۴ را اعمال میکند .
- چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال میکند .
· لایه max pooling : ما از یک لایه max pooling بعد از هر لایه کانولوشن اعمال کردیم و سپس به تشکیل لایههای مختلف max pooling برای تولید یک خروجی با اندازه ثابت پرداختیم.
· یک لایه ً fully connected layer وجود دارد.
· تابع فعالسازی بازگشتی اجازه ایجاد ارتباط نتایج بهدستآمده را با کلاس مناسب میدهد.
· تابع زیان loss function برای تهیه مدل " Sparse - categorical - crossentropy کمتراکم " ضروری است.
· ما از یک مدل توزیع استفاده کردیم چون سه کلاس در فرمت صحیح و مطلق وجود دارد .
· بهینهساز Adam "" استفاده شده است.
مدل CNN عملکرد بالایی را ارائه داد که از لحاظ دقت به 88 % رسید(شکل شماره4) .
5.3.2. LSTM/BiLSTM Models
شبکههای عصبی بازگشتی و به طور خاص LSTM و BiLSTM , به دلیل توانایی آنها در حفظ ترتیب زمانی بین دادهها معروف هستند که هنگام تحلیل نظرات متون طولانی , بسیار مهم و پرکاربرد میباشند.
مدل LSTM / BiLSTM با CNNمتفاوت است, بنابراین نیازی به مدلی(محدودیتی) برای ایجاد بردارهای ورودی ندارد.
مدلهای LSTM / BiLSTM به شکل زیر پیکربندی شدهاند :
· حداکثر اندازه بردارهای سند ۴۶۷۶ بود .
· یک لایه LSTM / BiLSTM وجود دارد .
· یک لایه ً fully connected وجود دارد .
· یک تابع فعال softmax وجود دارد .
· تابع زیان " Sparse - categorical - crossentropy " بودهاست .
· بهینهساز Adam " " استفاده شده است .
LSTM دقت 85.87 %(شکل شماره5) و BiLSTM دقت ۸۶.۴۰ % (شکل شماره6) را ارایه کرد. دقت این مدلها به CNN با Doc2vecنزدیک بود .
5.3.3. CNN-LSTM Model
مدل CNN - LSTM به شرح زیر پیکربندی شدهاست:
· حداکثر تعداد بردارها که میتوان از یک سند ایجاد کرد ۶۰۰ است.
· اندازه داده ورودی شبکه عصبی ۶۰۰ میباشد.
· چهار لایه کانولوشن به صورت زیر است:
-اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال میکند .
-دومی 90 فیلتر trigram از اندازه ۳ را اعمال میکند .
-سومین 90 فیلتر four - gram از سایز ۴ را اعمال میکند .
-چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال میکند .
· یک لایه max pooling وجود دارد. بعد از هر لایه کانولوشن یک لایه max pooling اعمال کردیم و سپس به تشکیل لایههای مختلف max pooling برای تولید یک خروجی با اندازه ثابت پرداختیم.
· یک لایه LSTM وجود دارد.
· یک لایه fully connected وجود دارد.
· تابع فعالسازی بردار را به احتمال تعریف کلاس هر خروجی تبدیل میکند.
· تابع زیان( loss function) که برای تدوین مدل ضروری است, از بهینهساز "Adam " استفاده میکند.
این ترکیب به دقت 90.13% دست یافت (شکل شماره 7) که به ارزش افزوده LSTMها در قیاس با مدل CNN تایید کرد است.
5.4. Discussion
مقایسه عملکرد مدلهای یادگیری عمیق مختلف ، علاقه CNN-BiLSTM به Doc2vec ، با مدل پیش آموزش داده شده از جمله یا پاراگراف را تایید میکند . (شکل شماره4 ، بالاترین مقدار به رنگ قرمز پررنگ شدهاست .)
Doc2vec بهتر از Word2vec میباشد ، با توجه به متن بلند مقالات ، چون Word2vec برای تجزیه و تحلیل متن کوتاه مناسبتر است .
این نتیجه نشاندهنده تاثیر BiLSTM در حفظ ارتباط و ترتیب بین دادهها(در دو جهت ) برای فهم متن و در CNNتوانایی استخراج ویژگیهای دادهها میباشد. این ترکیب از نقاط قوت هر مدل بهرهمند میگردد.
6. Conclusionsنتیجهگیری
در این مقاله , ما ترکیبی از شبکههای عصبی و بازگشتی دو طرفه را برای تحلیل احساسی در سطح اسناد و با تعبیه Doc2vec ارائه دادیم . مدل ترکیبی CNN - BiLSTM نتایج خوبی را در متن طولانی ارائه میکند , چرا که از توانایی CNN برای استخراج ویژگیها و از BiLSTM برای یادگیری وابستگیهای متقابل طولانیمدت متن بهره میبرد . علاوه بر این, فرآیندهای تعبیه Doc2vecبرای نمایش متن در سطح پاراگراف , برای طبقهبندی سند متنی طولانی مناسبتر است , برخلاف پردازش متون کوتاه متداول بخصوص در شبکههای اجتماعی .
این مدل در یک مجموعه داده از مقالههای فرانسوی از روزنامههای اینترنتی آموزش داده شد . برای اعتبار سنجی( validation ) ما پنج مدل یادگیری عمیق به نامهای CNN , LSTM , BiLSTM , CNN - LSTM وCNN - BiLSTM را با مطالعات تجربی مقایسه کردیم .
در کار آینده ، مدل پیشنهادی را میتوان برای اسناد عربی بکار برد [ ۴۶ ] ، شامل مکانیزم مورد توجه برای تجزیه و تحلیل احساسات سطح سند [ ۴۷ ، ۴۸ ] ، و بررسی سایر embeddingsها مانند Glove و Fasttext
References
1. Liu, B. Sentiment analysis and opinion mining. Synth. Lect. Hum. Lang. Technol. 2012, 5, 1–167. [CrossRef]
2. Nasukawa, T.; Yi, J. Sentiment analysis: Capturing favorability using natural language processing.
In Proceedings of the 2nd International Conference on Knowledge Capture, Austin, TX, USA, 4–6 December
2003; pp. 70–77.
3. Kim, Y. Convolutional Neural Networks for Sentence Classification. In Proceedings of the 2014 Conference on
Empirical Methods in Natural Language Processing (EMNLP); Association for Computational Linguistics: Doha,
Qatar, 2014; pp. 1746–1751.
4. Sundermeyer, M.; Schlüter, R.; Ney, H. LSTM neural networks for language modeling. In Proceedings of the
Thirteenth annual conference of the international speech communication association, Portland, OR, USA,
9–13 September 2012.
5. Yin,W.; Kann, K.; Yu, M.; Schütze, H. Comparative study of CNN and RNN for natural language processing.
arXiv 2017, arXiv:1702.01923.
6. Goldberg, Y. Neural network methods for natural language processing. Synth. Lect. Hum. Lang. Technol.
2017, 10, 1–309. [CrossRef]
7. Pang, B.; Lee, L. Opinion mining and sentiment analysis. Found. Trends Inf. Retr. 2008, 2, 1–135. [CrossRef]
8. Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.S.; Dean, J. Distributed representations of words and phrases
and their compositionality. In Proceedings of the Advances in Neural Information Processing Systems,
Tahoe, NV, USA, 5–10 December 2013; pp. 3111–3119.
9. Le, Q.; Mikolov, T. Distributed representations of sentences and documents. In Proceedings of the 31th
International Conference on Machine Learning, Beijing, China, 21–26 June 2014; pp. 1188–1196.
10. Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Comput. 1997, 9, 1735–1780. [CrossRef]
11. Gers, F. Long Short-Term Memory in Recurrent Neural Networks. Ph.D. Thesis, Leibniz Universitat
Hannover, Hannover, Germany, 2001.
12. Greff, K.; Srivastava, R.K.; Koutník, J.; Steunebrink, B.R.; Schmidhuber, J. LSTM: A search space odyssey.
arXiv 2015, arXiv:1503.040692.
13. Lai, S.; Xu, L.; Liu, K.; Zhao, J. Recurrent convolutional neural networks for text classification. In Proceedings
of the 29th AAAI Conference on Artificial Intelligence, Austin, TX, USA, 25–30 January 2015.
14. Schuster, M.; Paliwal, K.K. Bidirectional recurrent neural networks. IEEE Trans. Signal Process. 1997, 45,
2673–2681. [CrossRef]
15. Tai, K.S.; Socher, R.; Manning, C.D. Improved semantic representations from tree-structured long short-term
memory networks. arXiv 2015, arXiv:1503.00075.
16. Gamal, D.; Alfonse, M.; M El-Horbaty, E.S.; M Salem, A.B. Analysis of Machine Learning Algorithms for
Opinion Mining in Different Domains. Mach. Learn. Knowl. Extr. 2019, 1, 224–234. [CrossRef]
17. Zhang, L.;Wang, S.; Liu, B. Deep learning for sentiment analysis: A survey. arXiv 2018, arXiv:1801.07883.
18. Go, A.; Bhayani, R.; Huang, L. Twitter Sentiment Classification Using Distant Supervision; CS224N Project
Report; Stanford University: Stanford, CA, USA, 2009.
19. Dong, L.;Wei, F.; Tan, C.; Tang, D.; Zhou, M.; Xu, K. Adaptive recursive neural network for target-dependent
twitter sentiment classification. In Proceedings of the 52nd annual meeting of the association for
computational linguistics (volume 2: Short papers), Baltimore, MD, USA, 22–27 June 2014; Volume 2,
pp. 49–54.
20. Tang, D.; Wei, F.; Qin, B.; Liu, T.; Zhou, M. Coooolll: A deep learning system for twitter sentiment
classification. In Proceedings of the 8th international workshop on semantic evaluation (SemEval 2014),
Dublin, Ireland, 23–24 August 2014; pp. 208–212.
21. Severyn, A.; Moschitti, A. Twitter sentiment analysis with deep convolutional neural networks.
In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in
Information Retrieval, Santiago, Chile, 9–13 August 2015; pp. 959–962.
22. Jianqiang, Z.; Xiaolin, G.; Xuejun, Z. Deep convolution neural networks for Twitter sentiment analysis.
IEEE Access 2018, 6, 23253–23260. [CrossRef]
23. Uysal, A.K.; Gunal, S. The impact of preprocessing on text classification. Inf. Process. Manag. 2014, 50,
104–112. [CrossRef]
24. Petz, G.; Karpowicz, M.; Fürschuß, H.; Auinger, A.; Winkler, S.M.; Schaller, S.; Holzinger, A. On text
preprocessing for opinion mining outside of laboratory environments. In International Conference on Active
Media Technology; Springer: Berlin, Germany, 2012; pp. 618–629.
25. Dos Santos, C.; Gatti, M. Deep convolutional neural networks for sentiment analysis of short texts.
In Proceedings of the COLING 2014, the 25th International Conference on Computational Linguistics,
Dublin, Ireland, 23–29 August 2014; pp. 69–78.
Mach. Learn. Knowl. Extr. 2019, 1 846
26. Zhou, P.; Qi, Z.; Zheng, S.; Xu, J.; Bao, H.; Xu, B. Text classification improved by integrating bidirectional
LSTM with two-dimensional max pooling. arXiv 2016, arXiv:1611.06639.
27. Wang, X.; Jiang, W.; Luo, Z. Combination of convolutional and recurrent neural network for sentiment
analysis of short texts. In Proceedings of the COLING 2016, the 26th International Conference on
Computational Linguistics, Osaka, Japan, 11–16 December 2016; pp. 2428–2437.
28. Yenter, A.; Verma, A. Deep CNN-LSTM with combined kernels from multiple branches for IMDb review
sentiment analysis. In Proceedings of the 2017 IEEE 8th Annual Ubiquitous Computing, Electronics and
Mobile Communication Conference (UEMCON), New York, NY, USA, 19–21 October 2017; pp. 540–546.
29. Shen, Q.; Wang, Z.; Sun, Y. Sentiment analysis of movie reviews based on cnn-blstm. In International
Conference on Intelligence Science; Springer: Berlin, Germany, 2017, pp. 164–171.
30. Yoon, J.; Kim, H. Multi-Channel Lexicon Integrated CNN-BiLSTM Models for Sentiment Analysis.
In Proceedings of the 29th Conference on Computational Linguistics and Speech Processing (ROCLING
2017), Taipei, Taiwan, 27–28 November 2017; pp. 244–253.
31. Sobkowicz, P.; Kaschesky, M.; Bouchard, G. Opinion mining in social media: Modeling, simulating,
and forecasting political opinions in the web. Gov. Inf. Q. 2012, 29, 470–479. [CrossRef]
32. Sarmento, L.; Carvalho, P.; Silva, M.J.; De Oliveira, E. Automatic creation of a reference corpus for
political opinion mining in user-generated content. In Proceedings of the 1st International CIKM Workshop on
Topic-Sentiment Analysis for Mass Opinion; ACM: New York, NY, USA, 2009; pp. 29–36.
33. Durant, K.T.; Smith, M.D. Mining sentiment classification from political web logs. In Proceedings of
Workshop on Web Mining and Web Usage Analysis of the 12th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining (WebKDD-2006), Philadelphia, PA, USA, 20–23 August 2006.
34. Hu, Y.H.; Chen, Y.L.; Chou, H.L. Opinion mining from online hotel reviews–A text summarization approach.
Inf. Process. Manag. 2017, 53, 436–449. [CrossRef]
35. Yousfi, S.; Rhanoui, M.; Mikram, M. Comparative Study of CNN and RNN For Opinion Mining in Long Text.
In Proceeding of the International Conference on Modern Intelligent Systems Concepts, Rabat, Morocco,
12–13 December 2018.
36. Missen, M.M.S.; Boughanem, M.; Cabanac, G. Opinion mining: reviewed from word to document level.
Soc. Netw. Anal. Min. 2013, 3, 107–125. [CrossRef]
37. Yessenalina, A.; Yue, Y.; Cardie, C. Multi-level structured models for document-level sentiment classification.
In Proceedings of the 2010 conference on empirical methods in natural language processing. Association for
Computational Linguistics, Cambridge, MA, USA, 9–11 October 2010; pp. 1046–1056.
38. Rao, G.; Huang,W.; Feng, Z.; Cong, Q. LSTM with sentence representations for document-level sentiment
classification. Neurocomputing 2018, 308, 49–57. [CrossRef]
39. Fu, M.; Qu, H.; Huang, L.; Lu, L. Bag of meta-words: A novel method to represent document for the
sentiment classification. Expert Syst. Appl. 2018, 113, 33–43. [CrossRef]
40. Lau, J.H.; Baldwin, T. An empirical evaluation of doc2vec with practical insights into document embedding
generation. arXiv 2016, arXiv:1607.05368.
41. Jacovi, A.; Shalom, O.S.; Goldberg, Y. Understanding convolutional neural networks for text classification.
arXiv 2018, arXiv:1809.08037.
42. Hinton, G.E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. Improving neural networks
by preventing co-adaptation of feature detectors. arXiv 2012, arXiv:1207.0580.
43. LeCun, Y.A.; Bottou, L.; Orr, G.B.; Müller, K.R. Efficient backprop. In Neural Networks: Tricks of the Trade;
Springer: Berlin, Germany, 2012; pp. 9–48.
44. Bottou, L. Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT’2010;
Springer: Berlin, Germany, 2010; pp. 177–186.
45. Kingma, D.P.; Ba, J. Adam: A method for stochastic optimization. arXiv 2014, arXiv:1412.6980.
46. Shoukry, A.; Rafea, A. Sentence-level Arabic sentiment analysis. In Proceedings of the 2012 International
Conference on Collaboration Technologies and Systems (CTS), Denver, CO, USA, 21–25 May 2012;
pp. 546–550.
47. Wang, Y.; Huang, M.; Zhao, L. Attention-based LSTM for aspect-level sentiment classification. In Proceedings
of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, TA, USA, 1–5
November 2016; pp. 606–615.
Mach. Learn. Knowl. Extr. 2019, 1 847
48. Yang, Z.; Yang, D.; Dyer, C.; He, X.; Smola, A.; Hovy, E. Hierarchical attention networks for document
classification. In Proceedings of the 2016 Conference of the North American Chapter Of the Association
for Computational Linguistics: Human Language Technologies, San Diego, CA, USA, 12–17 June 2016;
pp. 1480–1489.
49. Pennington, J.; Socher, R.; Manning, C. Glove: Global vectors for word representation. In Proceedings of
the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 25–29
October 2014; pp. 1532–1543.
50. Bojanowski, P.; Grave, E.; Joulin, A.; Mikolov, T. Enriching word vectors with subword information.
Trans. Assoc. Comput. Linguist. 2017, 5, 135–146. [CrossRef]