کمیل آقابابایی
کمیل آقابابایی
خواندن ۳۰ دقیقه·۴ سال پیش

مدل " CNN - BiLSTM " برای تحلیل احساسات سطح سند

Maryem Rhanoui 1,2 , Mounia Mikram 2,3 , Siham Yousfi 2,4 and Soukaina Barzali 2

* Correspondence: mrhanoui@esi.ac.ma

Received: 30 June 2019; Accepted: 23 July 2019; Published: 25 July 2019

کمیل آقابابایی

ارشد مهندسی نرم‌افزار



چکیده : آنالیز احساسی سطح اسناد یک کار چالش برانگیز است که با توجه به اندازه بزرگ متن ، که منجر به فراوانی کلمات و نظرات در زمان‌های متفاوت در همان سند می‌شود.

این تحلیل به ویژه در تجزیه و تحلیل مقالات رسانه‌ای و پست بلاگ درباره یک محصول یا شرکت خاص مفید است ، و نیاز به تمرکز بالایی دارد ، به خصوص زمانی که موضوع مورد بحث حساس است . با این وجود ، اغلب مدل‌ها و تکنیک‌های موجود برای پردازش متن کوتاه از شبکه‌های اجتماعی و پلت فرم های مشترک طراحی شده‌اند . در این مقاله ، ما ترکیبی از شبکه‌های عصبی مصنوعی CNN و BiLSTM را با تعبیه Doc2vec ، مناسب برای تحلیل نظر در متون طولانی پیشنهاد می‌کنیم . مدل CNN - BiLSTM با CNN ، LSTM ، BiLSTM و CNN - LSTM با بهره‌گیری از Word۲vec / Doc۲vec مقایسه شده‌است . مدل CNN - BiLSTM در مقالات روزنامه‌های فرانسوی به کار گرفته شد و از مدل‌های دیگر با دقت ۹۰.۶۶ % پیشی گرفت.

کلمات کلیدی : تحلیل احساسی ؛ سطح اسناد ؛ Doc۲vec ؛ CNN - BiLSTM

مقدمه

نظر یا تحلیل احساسات مجموعه‌ای از عملیات زبانی متعلق به پردازش خودکار زبان طبیعی است که به متون دیجیتال, یعنی مقالات و نظرات شبکه‌های اجتماعی و نیز مقالات مطبوعاتی اطلاق می‌شود. هدف آن شناسایی احساسات بیان‌شده در متن و پیش‌بینی قطبش آن (مثبت یا منفی) نسبت به یک سوژه مشخص است.

این تحلیل بسیار کاربردی است, به ویژه با ظهور شبکه‌های اجتماعی, افراد شروع به بیان نظرات خود به راحتی و در کوتاه‌ترین زمان می‌کنند که پردازش دستی این تعداد زیادی از نظرات را بسیار دشوار می‌کند. یادگیری ماشینی و مدل‌های یادگیری عمیق هنگامی که برای متن کوتاه اعمال می‌شوند به لطف فراوانی مجموعه داده‌های استخراج‌شده از شبکه‌های اجتماعی و تعداد کم کلماتی که شناسایی نظرات را تسهیل می‌کنند، به عملکرد بالایی دست می‌یابند. با این حال، در مورد یک سند، کار پیچیده‌تر است چون حاوی تعداد زیادی کلمات است و ارتباط معنایی بین جملات پیچیده‌تر است. محققان علاقه رو به رشدی را در تکنیک‌های تحلیل این توده بزرگ داده‌ها نشان داده‌اند تا نقطه نظرات بیان‌شده در یک سوژه مشخص را استخراج کنند. یادگیری عمیق نشانه تکامل این تحلیل با توجه به عملکرد آن در تمامی موارد مربوط به پردازش خودکار زبان طبیعی, یعنی خلاصه متن, پیش‌بینی کلمه و دسته‌بندی متن است.

آنالیز احساسی یک موضوع تحقیقاتی محبوب است؛ چندین مطالعه درباره اثربخشی شبکه‌های عصبی عمیق در این کار را تحقیق و اثبات کرده‌اند. در حقیقت، شبکه‌های عصبی مصنوعی (CNN) به عملکرد عالی در طبقه‌بندی اسناد دست یافته‌اند . شبکه عصبی حافظه کوتاه‌مدت طولانی‌مدت LSTM نیز در پردازش زبان طبیعی محبوب است . به طور انفرادی، مدل‌های دوگانه و تکراری را می‌توان ازنظر عملکرد در نظر گرفت. همانطور که CNN یک مدل استخراج ویژگی قوی است و بهتر است با شبکه بزرگ‌تر ادغام و ترکیب شود ، چالش اکنون در ترکیب قرار دارد و این مدل‌ها را برای بهره‌برداری از نقاط قوت یکدیگر ترکیب می‌کند.

به علاوه، با توجه به رشد شبکه‌های اجتماعی که به یک منبع غنی از اطلاعات تبدیل شده‌اند، تحقیقات بر روی تحلیل متن کوتاهی متمرکز شده‌است. آنالیز احساسی سطح اسناد یک کار چالش برانگیز تر است زیرا ساختار، تعداد کلمات و ترکیب عقاید به طور قابل‌توجهی از متن کوتاه متفاوت هستند.

بنابراین، سوال تحقیق این است که چگونه یک مدل یادگیری عمیق موثر را پیشنهاد کنیم که با پردازش و طبقه‌بندی سطح سند تطبیق داده شود. برای پاسخ به این پرسش، سهم ما پیشنهاد یک مدل CNN - BiLSTM است، که ترکیبی از شبکه‌های عصبی بازگشتی و دو سویه برای تحلیل احساسات در سطح سند با Doc2vec Embedding است. این مدل در مقایسه با مدل‌های سی ان ان، LSTM، BiLSTM و CNN - LSTM با تعبیه Doc2vec/ word embedding مقایسه شد و این آزمایش نشان می‌دهد که مدل CNN - BiLSTM با تعبیه Doc2vec از مدل‌های دیگر پیشی گرفته‌است و دقت ۹۰.۶۶ % در دسته‌بندی مقالات مطبوعات فرانسه کسب کرده‌است.

ادامه این مقاله به شرح زیر سازماندهی شده‌است. در بخش ۲، دانش پیش‌زمینه را ارایه می‌کنیم. بخش ۳ برخی کارهای مرتبط را ارایه می‌دهد. بخش ۴ جزییات مدل پیشنهادی CNN - BiLSTM را توضیح می‌دهد. در نهایت، بخش ۵ نتایج تجربی را ارایه می‌دهد.

۲. پیشینه و زمینه: آنالیز احساسی

2-1 تجزیه و تحلیل احساسات

عقیده به معنای قضاوت, بررسی یا دیدگاه شخصی است. هر نظر می‌تواند مثبت, منفی یا خنثی باشد. این طبقه‌بندی عقیده اخیراً توجه بسیاری را به خود جلب کرده‌است, زیرا عقیده به عنصر اصلی سیستم‌های پایش شهرت الکترونیکی تبدیل شده‌است.

۲.۱.۱. سطوح تجزیه و تحلیل نظر:

آنالیز نظر می‌تواند در سطوح مختلف بکار رود، یعنی: سطح کلمه Word level تحلیلی است که قطبیت یک واژه را تعیین می‌کند، یعنی، اگر یک واژه مثبت، منفی یا خنثی باشد.

سطح جمله Sentence level، تحلیلی است که قطبیت یک جمله را تعیین می‌کند. اغلب در تجزیه و تحلیل نظر استفاده می‌شود. از آنجا که برای شبکه‌های اجتماعی خاص است، این یک توالی از کلمات است که هدف از آن مشخص کردن یک نظر در یک موضوع است.

سطح سند Document level تحلیلی است که قطبیت یک سند را مشخص می‌کند. در مقایسه با سایر سطوح، سطح دشواری است زیرا هنگامی که تعداد کلمات افزایش می‌یابد، نویز کلمات افزایش می‌یابد، که یادگیری را تحریف می‌کند و پیش‌بینی قطبش را پیچیده می‌کند.

2.1.2. Word Embedding

تعبیه کلمات Word Embedding روشی است که در یادگیری عمیق برای پردازش خودکار زبان طبیعی, براساس نمایش کلمات در یک پیکره بزرگ با ارائه مجموعه‌ای از کلمات با اندازه k به فضای برداری از ابعادm به گونه ای که m < k, به منظور تسهیل تحلیل معنایی کلمات و بهبود عملکرد یادگیری استفاده می‌شود.

یک بردار کلمات AWord Vector شبکه‌ای از نورون‌های مصنوعی دو لایه است که توانایی یاد گرفتن چگونگی نشان دادن هر کلمه با یک بردار عدد حقیقی با ویژگی‌های معنایی آن را دارند.

Word2vecمی‌تواند از طریق دو مدل یاد بگیرد:

- استفاده مداوم (پیوسته) از کلمات (CBOW) Continuous Bag of Words براساس پیش‌بینی یک کلمه از یک متن است. این می‌تواند یک کلمه یا مجموعه‌ای از کلمات باشد، در نتیجه این مدل یک نقطه بسیار قوی دارد زیرا به منابع زیادی نیاز ندارد. این مدل مبتنی بر محاسبه احتمال لگاریتمی منفی یک کلمه ?با توجه به یک زمینه? است.

- Skip - Gramمشابه CBOW این مدل یک کلمه به عنوان ورودی در نظر گرفته و تمام کلمات را به عنوان خروجی پیش‌بینی می‌کند.

یک بردار سند Document Vector تعمیمی از بردار کلمه است که نشان‌دهنده کل سند در یک بردار دیجیتالی است تا به راحتی شباهت بین اسناد را شناسایی کند. یک بردار سند تعمیمی از بردار کلمه است که نشان‌دهنده کل سند در یک بردار دیجیتالی است تا به راحتی شباهت بین اسناد را شناسایی کند. این روش می‌تواند نحوه بازنمایی اسناد را از طریق دو مدل یاد بگیرد, یعنی " کیف توزیع کلمات"Distributed Bag ofWords ( DBOW ) , که معادل Skip - Gramدر Word2vecاست, و حافظه توزیع‌شده Distributed Memory ( DM ) است.

- Distributed Bag of Words (DBOW)کیف توزیع کلمات به طور تصادفی توزیع احتمال کلمات را در سند از شناسه یک سند, به منظور ایجاد بردار, پیش‌بینی می‌کند. نظم کلمات را در نظر نمی‌گیرد. در طول دوره آموزش, بردار سند و وزن‌های کلمه با استفاده از روش شیب تصادفی stochastic gradient, مقداردهی اولیه و به روز می‌شوند.

- Paragraph Vector - Distributed Memory ( PV - DM ) پاراگراف برداری - حافظه توزیع‌شده(PV - DM ) ، برخلاف DBOW، یک کلمه را از متن سند پیش‌بینی می‌کند . یک مجموعه از کلمات یک پاراگراف را به طور تصادفی و یک شناسه سند به عنوان ورودی می‌گیرد و سعی دارد یک واژه مرکزی را پیش‌بینی کند .

2.2. Deep Learning

2.2.1. CNN

شبکه‌های عصبی کانولوشن یک شکل از شبکه‌های عصبی مصنوعی هستند که می‌توانند اطلاعات را در موقعیت‌های مختلف با دقت خوب تشخیص دهند. این مدل مشکلات متعددی را در پردازش تصویر و پردازش خودکار زبان طبیعی مانند تحلیل نظرات, پاسخ به سوالات, خلاصه متن, و با معماری خاص برای تسهیل یادگیری, حل کرده‌است. شبکه عصبی کانولوشن یک شبکه چند لایه است, به طوری که خروجی یک لایه ورودی لایه بعدی خواهد بود. این شبکه معمولاً از یک ورودی, یکی تا چند لایه پنهان و یک خروجی تشکیل شده‌است.

2.2.2. RNN-LSTM

شبکه عصبی مصنوعی (RNN) یک شبکه به‌هم‌پیوسته و برهمکنش دهنده نورون‌ها است که در آن نورون‌ها به شکل کمانی از وزن به هم متصل می‌شوند. این نوع شبکه در مورد ورودی‌های اندازه‌های مختلف بسیار مفید است، همچنین برای سری‌های زمانی، یعنی ترجمه خودکار، شناسایی گفتار خودکار و شناسایی الگوی خودکار. جهت انتشار اطلاعات در این نوع از شبکه عصبی مصنوعی دو سویه است؛ توالی داده‌ها را نگه می‌دارد؛ و این می‌تواند ارتباط بین ورودی توالی‌های بلند را ایجاد کند، زیرا براساس یک حلقه به خاطر حافظه داخلی آن است.

شبکه‌های عصبی حافظه بلند مدت با استفاده از شبکه‌های عصبی مصنوعی پیشنهاد شده‌اند.آن‌ها یک بسط هستند که قادر به حل مشکل ناپدید شدن گرادیان به خاطر حافظه آن هستند, که امکان خواندن, نوشتن و حذف داده‌ها را از طریق سه گیت فراهم می‌کند: اولین اجازه یا بلوک‌های بروزرسانی (گیت ورودی) Input Gate را می‌دهد. دومی یک نورون است اگر براساس وزن‌های فراموشی آموخته‌شده توسط الگوریتم , که اهمیت آن را تعیین می‌کند گیت فراموشی (Forget Gate); و سوم یک گیت کنترل حالت نورونی در خروجی گیت خروجی(Output Gate) است (شکل 1).



این مدل قدرت خود را به ویژه در ورودی‌های با طول بلند مانند تحلیل اسناد نشان داده‌است, در آن رابطه بین کلمات مختلف سند را ایجاد می‌کند تا لحن خود را با دقت زیاد پیش‌بینی کند.

2.2.3. RNN-BiLSTM

حافظه کوتاه‌مدت دوطرفه ( BiLSTM ) یکی از انواع شبکه‌های عصبی بازگشتی است.این فرآیند داده‌ها را به دو جهت پردازش می‌کند, زیرا با دو لایه پنهان کار می‌کند. این نقطه اصلی واگرایی با LSTM است. این روش نتایج خوبی را در پردازش زبان طبیعی به اثبات رسانده‌ است.

3. RelatedWorks

تحلیل احساسات / عقیده موضوع اصلی تحقیق با استفاده از یادگیری ماشین و مدل‌های یادگیری عمیق است. متن کامل این مقاله به زبان انگلیسی می‌باشد, لطفاً برای مشاهده متن کامل مقاله به بخش انگلیسی مراجعه فرمایید. برای مدل‌های یادگیری عمیق, این طبقه‌بندی نیاز به یک مرحله پاک‌سازی اساسی و مرحله پیش‌پردازش (شامل توکنیزه کردن کلمه کلمه, حذف استپ وردها, تبدیل به حروف کوچک و ریشه‌کن کردن) دارد زیرا کیفیت داده تاثیر قابل‌توجهی بر عملکرد مدل یادگیری عمیق دارد.

Pang و همکاران ابتدا مفهوم تحلیل احساسی سطح سند را معرفی کردند. در این بخش, ما به توضیح رویکردهای تحلیل احساسی در هر دو سطح جمله (متن کوتاه) short text) ) و سطح سند (متن بلند ) long text) ) می‌پردازیم.

3.1. Short Text Sentiment Analysis

دوس سانتوس و Gatti در متن کوتاه کار کردند . آن‌ها یک شبکه عصبی مصنوعی جدید را پیشنهاد کردند که اطلاعات مربوط به کاراکتر به جمله را در متون کوتاه مورد استفاده قرار می‌دهد و آن را با دو پایگاه داده تایید می‌کند , بانک درخت احساسی استنفورد ( SSTb )، که شامل جملات از بررسی‌های فیلم , و احساس استنفورد در تویتر (SST ) است . آن‌ها یک شبکه به نام " Character Convictional Convictional Neural Network ( CharSCNN ) " را پیشنهاد کردند که از دو لایه convolutionalبرای استخراج ویژگی‌های مرتبط کلمات و جملات هر اندازه استفاده می‌کند . این مدل به ۸۵.۷ % در SSTb و ۸۶.۴ % در STS رسید .

به علاوه، ژو و همکاران LSTM bidirectional را با حداکثر دو بعد max pooling در پایگاه Stanford Sentiment treebank ( STS ) به کار بردند، به طوری که هر بردار با ماتریسی از بعد ۲ نمایش داده می‌شود . بنابراین، آن‌ها استفاده معمول از ادغام ۲ pooling را برای نمونه مناسب‌تر برای وظایف مدلسازی توالی تغییر دادند. علاوه بر این، آن‌ها از D2 convolution برای برجسته کردن مهم‌ترین اطلاعات در مورد ماتریس استفاده کردند. ترکیب BLSTM - ۲ DPooling به عملکرد 88.3% دست یافت در حالی که ترکیب BLSTM - ۲ DCNN به عملکرد of %89.5 در پایگاه‌داده SST۲ دست یافتند.

کیم, یک شبکه سی ان ان ساده را با یک لایه کانولوشنی با استفاده از یک مدل نظارت نشده , بر روی چندین پایگاه‌داده, به نام بازبینی‌های فیلم, sts اطلاعات, مجموعه داده پرس‌وجو, و بازبینی‌های مشتری اعمال کرد. او از یک ماشین کوچک استفاده کرد که نتایج بسیار قدرتمندی داشت.او همچنین از اندازه‌های مختلف فیلترهای مختلف استفاده کرد و چندین مدل سی ان ان را برای استخراج داده‌های مهم آزمایش کرد .او نتیجه گرفت که سی ان ان - استاتیک CNN - staticمدلی است که بهترین عملکرد را ارائه می‌دهد.

وانگ و همکاران بر روی ترکیبی از CNN و RNN برای آنالیز عقیده در جملات کار کردند. آن‌ها می‌خواستند از مزایای شبکه CNN و RNN بهره‌مند شوند تا دقت بیشتری داشته باشند. آن‌ها از سی ان ان استفاده کردند، که به موقعیت کلمات در جمله حساس است.سپس، آن‌ها از خروجی سی ان ان به عنوان ورودی برای RNN که در طول زمان آموزش‌دیده بودند، استفاده کردند.

Yenter و Verma [ ۲۸ ] یک مدل CNN - LSTM را برای آنالیز عقیده از پایگاه‌داده IMDB پیشنهاد کردند . این اثر از یکی دیگر متفاوت است چون آن‌ها نتایج را بعد از به کارگیری لایه LSTMالحاق می‌کنند . این مدل به ۸۹ % دقت رسید .

شن و همکاران [۲۹] یک طرح ویژه را پیشنهاد کردند که مدل‌های CNN و BiLSTM را برای عملکرد بهینه ترکیب می‌کند. آن‌ها دریافتند که این ترکیب دقتی به میزان ۸۹.۷ % دارد، که بهتر از accuracy هر دو مدل به صورت جداگانه است.

Yoon و همکاران [ ۳۰ ] یک معماری CNN - BiLSTMرا برای پیش‌بینی احساسات سطح اسناد با استفاده از تعبیه کلمات چند کاناله با بکارگیری Word2vec پیشنهاد کردند . مدل‌ها روی مجموعه داده‌های مختلف اعمال شدند و عملکرد متوسط اما متوسط بین ۵۱.۹۷ % و ۷۰.۰۸ % را بدست آوردند .

3.2. Document Level Sentiment Analysis

طبقه‌بندی اسناد ، هرچند کم‌تر از تحلیل متن کوتاه شبکه‌های اجتماعی ، می‌تواند در مناطق مختلف بسیار مفید باشد ، مانند تجزیه و تحلیل نظرات سیاسی در مطبوعات ، تحلیل نظرات کاربران و پوشش رسانه‌ای . در کار قبلی ما [ ۳۵ ] ، عملکرد مدل‌های CNN و LSTM را برای متن بلند مقایسه کردیم و دریافتیم که ترکیب Doc2vec و مدل‌های CNNاندکی از عملکرد RNN پیشی گرفته‌است . این به این دلیل است که سی ان ان از مدل Doc۲Vecاستفاده می‌کند ، که قطبیت کل سند را شناسایی می‌کند .

Missen و همکاران تحلیل عقیده را در اسناد با استفاده از کلمه " سطح اسناد " با استفاده از یک مجموعه corpus از اسناد مطرح کردند . آن‌ها ابتدا قطبیت کلمات را تعیین کردند، سپس قطبیت کلمات را در یک جمله ترکیب کردند تا قطبش جمله را تعیین کنند و در نهایت قطبیت جملات را با ترکیب امتیاز نهایی برای تشخیص قطبیت سند ترکیب کنند .

Yessenalina و همکاران یک رویکرد دو سطحی مشترک برای طبقه‌بندی احساسات سند را با ایجاد مفسر خودکار منطقه‌ای پیشنهاد کردند .

رائو و همکاران متون طولانی را برای بهره‌برداری از روابط معنایی بین جملات در طبقه‌بندی احساسات در سطح اسناد مدل‌سازی کردند.

فو و همکاران [ ۳۹ ] یک روش جدید به نام Bag Of Meta - Words را پیشنهاد کردند . آن‌ها سند را با بردارهای meta - word نشان دادند ، به طوری که هر بردار اطلاعات معنایی را در این سند مشخص کرده باشد. ویژگی این روش این است که معنایی سند را ثبت می‌کند .

آن‌ها دقت ۹۰.۸۸ % بدست آوردند .

کار مرتبط در جدول ۱ خلاصه شده‌است.

4. Proposed Model: CNN-BiLSTM and Doc2vec for Document-Level Sentiment Analysis

این مدل دو شبکه عصبی را ترکیب می‌کند که CNN and BiLSTMنامیده می شود. ما این ترکیب را برای آزمودن سازگاری CNN با BLSTMاجرا کردیم, چون عملکرد BLSTM در تحلیل نظرات مشهور است. نقطه قوت این مدل این است که امکان استخراج حداکثر مقدار اطلاعات از اسناد با استفاده از لایه‌های کانولوشن CNN را فراهم می‌کند. این خروجی به ورودی BLSTM تبدیل می‌شود که اجازه حفظ ترتیب زمانی بین داده در دو جهت را می‌دهد.

4.1. Model Overview and Motivation

ترکیب مدل‌های CNN و RNN نیازمند یک طرح خاص است چرا که هر مدل دارای معماری خاص و نقاط قوت خاص خود است :

· CNN به خاطر توانایی خود برای استخراج ویژگی‌های بسیاری از متن معروف است.

· LSTM / BiLSTM ترتیب زمانی بین کلمات در یک سند را نگه می‌دارد در نتیجه توانایی نادیده گرفتن کلمات غیر ضروری با استفاده از گیت حذف را دارد .

هدف ترکیب این دو مدل , ایجاد مدلی است که از نقاط قوت CNN و BiLSTM بهره‌مند شویم , به طوری که ویژگی‌های استخراج ‌شده با استفاده از CNN را بدست آورد و از آن‌ها به عنوان ورودی LSTM استفاده کرد . بنابراین , ما مدلی را توسعه می‌دهیم که این هدف را برآورده می‌کند, در همین راستا بردارهای ساخته‌ شده در بخش تعبیه embedding)) کلمات به‌عنوان ورودی شبکه عصبی کانولوشن استفاده می‌شوند . پس از آن , چهار فیلتر با اندازه 2 , 3 , 4 و 5 به ترتیب برای 100 زمان بندی اعمال می‌شوند . پس از هر فیلتر , یک لایه از max pooling برای به روزرسانی و کاهش اندازه داده‌ها اعمال می‌شود .

سپس , نتایج تمام لایه‌های حداکثر تجمع (max pooling ) به منظور ورودی BiLSTM ساخته شده است که برای فیلتر کردن اطلاعات در BiLSTM از سه گیت استفاده می شود. خروجی این مرحله ورودی لایه fully connected layer است که هر قطعه اطلاعات ورودی را با یک قطعه اطلاعات خروجی پیوند می‌دهد . در نهایت به عنوان تابع فعال‌سازی برای تخصیص کلاس‌ها به مقالات به منظور تولید خروجی مطلوب استفاده می‌شود .

بنابراین , معماری زیر را متشکل از سه بخش پیشنهاد می‌کنیم که با جزییات بیشتر در زیر توضیح داده شده‌اند ( شکل - 2 ) :

· بخش پیش پردازش : در این مرحله ، پاک‌سازی داده و پیش پردازش انجام می‌شود . سپس ، نمایش اسناد توزیع‌شده با استفاده از تعبیه Doc2Vec برای آماده‌سازی داده‌ها برای کانولوشن اعمال شده‌است . بردار حاصل به عنوان ورودی به مرحله بعدی منتقل می‌شود .

· بخش Convolution : در این مرحله , کانولوشن و لایه‌های max pooling برای استخراج ویژگی به منظور استخراج ویژگی‌های سطح بالا به کار می‌روند . خروجی این مرحله ورودی مرحله بعدی است .

· بخش BiLSTM/fully connected : در این مرحله از لایه‌های BiLSTM و لایه‌های fully connected برای طبقه‌بندی احساسات استفاده می‌شود . خروجی این مرحله طبقه‌بندی نهایی سند ( به صورت مثبت , منفی یا خنثی ) است .


4.2. Document Representation

تعبیه کلمات (Word embedding) آماده‌سازی داده‌ها در فرمت مناسب بردار برای ورودی شبکه‌های عصبی مصنوعی است. از آنجا که ما با متن طولانی سر و کار داشتیم, با اندازه بزرگی برای نشان دادن هر کلمه / پاراگراف در سند توسط یک بردار تست کردیم تا کل بردار کلمه / سند را بسازیم. از آنجایی که ما با متن بلند سروکار داشتیم، هر دو Doc2vec و Word2vec را با یک اندازه بزرگ برای نمایش هر کلمه / پاراگراف در یک سند توسط یک بردار برای ساختن کل کلمه / سند مورد آزمایش قرار دادیم. علاوه بر این ، ما مدل‌های Word2vec / Doc2vec را با نام‌های CBOW / DBOW و Skip - gram / DM برای دستیابی به عملکرد بهتر ترکیب کردیم .

Word2vec با استفاده از کلمات سند بردارهای متناظر را ایجاد می‌کند. این رویکرد مبتنی بر دو رویکرد یعنی CBOW و Skip - gram هستند که با هم ترکیب شده‌اند تا عملکرد را بهبود بخشند . این روش به طور گسترده برای آنالیز عقیده در متون کوتاه که مختص شبکه‌های اجتماعی هستند مورد استفاده قرار می‌گیرد ، اما همچنین برای پردازش متون طولانی نیز مورد استفاده قرار می‌گیرد .

Doc2vecبردارها را برای هر جمله یا پاراگراف از سند تولید می‌کند . همچنین براساس دو تکنیک به نام‌های DBOW ، که معادل با CBOW برای Word2vecاست و DM ، که معادل Skip - gram است ، می‌باشد . ما این دو تکنیک را با هم ترکیب کردیم تا به دقت (accuracy)بالا دست یابیم . این روش جدیدتری از Word2vec است و یک روش خاصی برای پردازش سند خاص به حساب می آید .

ما از embedding های Doc2vec برای طبقه‌بندی اسناد بزرگ استفاده کردیم، چون Doc2vec ثابت کرده‌است که عملکرد بهتری نسبت به Word2vec های داده در مجموعه داده‌های مختلف دارد [۴۰]. خروجی ماتریسی است که نشان‌دهنده پیوندهای بین کلمات / جملات / پاراگراف با استفاده از نمایش تعبیه کلمه است , به گونه‌ای که هر کلمه / جمله / پاراگراف یک بردار معادل طول ثابت در ماتریس دارد .

4.3. Convolution Layer

هدف لایه کانولوشن بررسی ترکیب بین جملات و پاراگراف‌های مختلف سند با استفاده از فیلترهایی در اندازه های t می باشد. یک شبکه عصبی مصنوعی (CNN) یک معماری استخراج ویژگی است و قرار است در یک شبکه بزرگ‌تر ادغام شود [۶].

یک n - gram یک زیر توالی (sub - sequence) از nکلمه مجاور است که از یک توالی ساخته شده‌ است. اصل اساسی محاسبه , از یک توالی داده ‌شده از کلمات می باشد که تابع احتمال ظاهرشدن کلمه بعدی تعریف می‌شود

در لایه کانولوشن ، فیلترها به عنوان تشخیص دهنده n - gramعمل می‌کنند ؛ هر فیلتر برای یک کلاس خاص از n - gramها عمل می‌کند و بالاترین نمرات را به آن‌ها اختصاص می‌دهد . گرم‌های تشخیص داده شده با بالاترین امتیاز از max pooling عبور داده می شوند.

چهار فیلتر با اندازه 2 , 3 , 4 و 5 به ترتیب برای 100 زمان بندی به کار می‌رود.

· اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال می‌کند .

· دومی 90 فیلتر trigram از اندازه ۳ را اعمال می‌کند .

· سومین 90 فیلتر four - gram از سایز ۴ را اعمال می‌کند .

· چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال می‌کند .

پس از هر فیلتر , یک لایه از max pooling برای به روزرسانی و کاهش اندازه داده‌ها اعمال می‌شود . پس از آن , نتایج تمام لایه‌های max pooling به منظور ایجاد ورودی BiLSTM ترکیب می شوند.

4.4. Activation Layer

هر لایه کانولوشن یک تابع خطی تصحیح شده (ReLU ) را اعمال می‌کند , که اجازه می‌دهد هر خروجی منفی با یک 0 جایگزین شود , که به عنوان اطلاعات غیر ضروری برای شبکه عصبی در نظر گرفته می‌شود و در نتیجه غیر خطی بودن شبکه را کاهش می دهد .

4.5. Regularization

منظم سازی از طریق چندین تابع مدیریت می‌شود که یک شبکه عصبی پیچیده را سازماندهی می‌کند تا از انطباق بیش از حدoverfitting بر عملکرد مدل‌های یادگیری عمیق جلوگیری کند .

ما از دو نوع اصلی، dropout و L۲ استفاده می‌کنیم، که شامل penalizing large weights in order برای بهینه‌سازی (optimize) شبکه‌های عصبی

4.6. Optimization

بهینه‌سازی در آموزش الگوریتم‌های یادگیری عمیق برای به روز رسانی پارامترهای مدل (وزن‌ها و مقادیر بایاس) در طول تکرارها استفاده می‌شود. استراتژی‌های بهینه‌سازی مختلفی وجود دارند که مقادیر مناسب و بهینه را برای این پارامترها محاسبه می‌کنند از قبیل Stochastic Gradient Descent ( SGD ) یا تخمین لحظه انطباقیAdaptive Moment Estimation ( Adam ).

SGDالگوریتم‌های بهینه‌سازی غیر انطباقی کلاسیک ((classical non - adaptive optimization algorithmsاست که برای بهینه‌سازی شبکه‌های یادگیری عمیق بکار می‌رود که از یک نرخ یادگیری واحد استفاده می‌کنند که در طول آموزش تغییر نمی‌کند. Adam یک روش الحاقی به SGD است که از یک نرخ یادگیری انطباقی برای بهینه‌سازی شبکه‌ها استفاده می‌کند که خیلی سریع همگرا می‌شوند و بهتر عمل می‌کنند .

5. Experimental Results

5.1. DataSet

ما یک مجموعه داده حاوی ۲۰۰۳ مقالات فرانسوی از روزنامه‌های ملی و بین‌المللی ساختیم. ( TelQuel ، Aujourd ، لو فیگارو ، و LeMonde ، و دیگران ). هر مقاله به طور متوسط ۴۰۰۰ لغت را شامل می‌شود . مقالات به صورت آنلاین کنار گذاشته شدند و سپس به صورت دستی برچسب زدند تا مجموعه داده‌ها را بسازند .توزیع قطبیت آن به شرح زیر است : مقالات خنثی 1247 ، ۴۷۴ مقاله مثبت و ۲۸۲ منفی ( جدول ۲ ) .

مجموع داده‌ با ۲۰۰۳ ورودی‌ به سه بخش تقسیم شد ، یعنی آموزش ، اعتبار سنجی و آزمایش) (training , validation and testing ، به صورت زیر توزیع شد : ۷۵ % ( ۱۵۰۲ ورودی ) برای آموزش مدل و ۲۵ % ( ۵۰۱ ورودی ) برای اعتبار سنجی ( ۳۷۵ مدخل ) و آزمایش ( ۱۲۶ ورودی ) توزیع شد .

مقالات استخراج‌شده مربوط به امور سیاسی ، نظرات در مورد یک شرکت داده‌شده و وقایع جاری عمومی ، و برتری با مقالات سیاسی است که در مورد یک رویداد اخیر ابراز عقیده می‌کنند .

عقاید سیاسی را می‌توان در انتخابات , احزاب , نمایندگان سیاسی و یک کشور مشخص کرد . این اطلاعات نیازمند پردازش خاصی است , زیرا اکثر تصمیمات استراتژیک براساس آن هستند .به ویژه اطلاعات امور سیاسی و سیاسی نقش فعالی در شکل‌گیری افکار عمومی ایفا می‌کند ; چرا که اکثر شهروندان آن را منبع اولویت اطلاعات می‌دانند و اعتبار بالایی به آن می‌دهند .

5.2. Results

ما عملکرد پیکره بندی‌های مختلفی را برای پردازش اسناد متنی طولانی مقایسه کردیم. بنابراین دقت accuracy با توجه به سه تکرار مختلف محاسبه شد ( یعنی ، ۶ ، ۸ و ۱۰ ) ، بین دو مقدار اندازه دسته ( یعنی ۳۲ و ۶۴ ) ، و بهینه سازی SGD و Adam ( جدول ۳ ، بالاترین مقدار به رنگ قرمز پررنگ می‌شود ) .

دقت به نسبت پیش‌بینی‌های درست انجام‌شده توسط این مدل اشاره دارد .

ما عملکرد CNN - BiLSTM را با استفاده از تعبیه کلمات Doc2vec با مدل‌های مختلف CNN ، LSTM ، BiLSTM و CNN - LSTMمقایسه و برای همه آن‌ها دقت را اندازه‌گیری کردیم .

5.3. Comparaison

ما مدل پیشنهادی CNN-BiLSTM را با مدل‌های CNN, LSTM, BiLSTM و CNN-LSTMمقایسه کردیم.

5.3.1. CNN

مدل شبکه CNN از نظر استخراج ویژگی قدرتمند است , که در تحلیل نظرات بسیار جالب است , به خصوص هنگامی که با مقاله‌های بلند سر و کار دارید و استخراج ویژگی‌های آن دشوار است .

مدل CNN به صورت زیر پیکربندی شده‌است :

· حداکثر تعداد بردارها که می‌توانند از یک سند ایجاد شوند 600 است.

· اندازه داده‌های ورودی شبکه عصبی 600 داده شد .

· چهار لایه کانولوشن با تابع فعال‌سازی بازگشتی عبارتند از :

- اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال می‌کند .

- دومی 90 فیلترtrigram از اندازه ۳ را اعمال می‌کند .

- سومین 90 فیلترfour - gram از سایز ۴ را اعمال می‌کند .

- چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال می‌کند .

· لایه max pooling : ما از یک لایه max pooling بعد از هر لایه کانولوشن اعمال کردیم و سپس به تشکیل لایه‌های مختلف max pooling برای تولید یک خروجی با اندازه ثابت پرداختیم.

· یک لایه ً fully connected layer وجود دارد.

· تابع فعال‌سازی بازگشتی اجازه ایجاد ارتباط نتایج به‌دست‌آمده را با کلاس مناسب می‌دهد.

· تابع زیان loss function برای تهیه مدل " Sparse - categorical - crossentropy کم‌تراکم " ضروری است.

· ما از یک مدل توزیع استفاده کردیم چون سه کلاس در فرمت صحیح و مطلق وجود دارد .

· بهینه‌ساز Adam "" استفاده شده است.

مدل CNN عملکرد بالایی را ارائه داد که از لحاظ دقت به 88 % رسید(شکل شماره4) .

5.3.2. LSTM/BiLSTM Models

شبکه‌های عصبی بازگشتی و به طور خاص LSTM و BiLSTM , به دلیل توانایی آن‌ها در حفظ ترتیب زمانی بین داده‌ها معروف هستند که هنگام تحلیل نظرات متون طولانی , بسیار مهم و پرکاربرد می‌باشند.

مدل LSTM / BiLSTM با CNNمتفاوت است, بنابراین نیازی به مدلی(محدودیتی) برای ایجاد بردارهای ورودی ندارد.

مدل‌های LSTM / BiLSTM به شکل زیر پیکربندی شده‌اند :

· حداکثر اندازه بردارهای سند ۴۶۷۶ بود .

· یک لایه LSTM / BiLSTM وجود دارد .

· یک لایه ً fully connected وجود دارد .

· یک تابع فعال softmax وجود دارد .

· تابع زیان " Sparse - categorical - crossentropy " بوده‌است .

· بهینه‌ساز Adam " " استفاده شده است .

LSTM دقت 85.87 %(شکل شماره5) و BiLSTM دقت ۸۶.۴۰ % (شکل شماره6) را ارایه کرد. دقت این مدل‌ها به CNN با Doc2vecنزدیک بود .

5.3.3. CNN-LSTM Model

مدل CNN - LSTM به شرح زیر پیکربندی شده‌است:

· حداکثر تعداد بردارها که می‌توان از یک سند ایجاد کرد ۶۰۰ است.

· اندازه داده ورودی شبکه عصبی ۶۰۰ می‌باشد.

· چهار لایه کانولوشن به صورت زیر است:

-اولی ۹۰ فیلتر bigrams از سایز ۲ را اعمال می‌کند .

-دومی 90 فیلتر trigram از اندازه ۳ را اعمال می‌کند .

-سومین 90 فیلتر four - gram از سایز ۴ را اعمال می‌کند .

-چهارمین 90 فیلتر five - gram از سایز ۵ را اعمال می‌کند .

· یک لایه max pooling وجود دارد. بعد از هر لایه کانولوشن یک لایه max pooling اعمال کردیم و سپس به تشکیل لایه‌های مختلف max pooling برای تولید یک خروجی با اندازه ثابت پرداختیم.

· یک لایه LSTM وجود دارد.

· یک لایه fully connected وجود دارد.

· تابع فعال‌سازی بردار را به احتمال تعریف کلاس هر خروجی تبدیل می‌کند.

· تابع زیان( loss function) که برای تدوین مدل ضروری است, از بهینه‌ساز "Adam " استفاده می‌کند.

این ترکیب به دقت 90.13% دست یافت (شکل شماره 7) که به ارزش افزوده LSTMها در قیاس با مدل CNN تایید کرد است.

5.4. Discussion

مقایسه عملکرد مدل‌های یادگیری عمیق مختلف ، علاقه CNN-BiLSTM به Doc2vec ، با مدل پیش آموزش داده شده از جمله یا پاراگراف را تایید می‌کند . (شکل شماره4 ، بالاترین مقدار به رنگ قرمز پررنگ شده‌است .)

Doc2vec بهتر از Word2vec می‌باشد ، با توجه به متن بلند مقالات ، چون Word2vec برای تجزیه و تحلیل متن کوتاه مناسب‌تر است .

این نتیجه نشان‌دهنده تاثیر BiLSTM در حفظ ارتباط و ترتیب بین داده‌ها(در دو جهت ) برای فهم متن و در CNNتوانایی استخراج ویژگی‌های داده‌ها می‌باشد. این ترکیب از نقاط قوت هر مدل بهره‌مند می‌گردد.

6. Conclusionsنتیجه‌گیری

در این مقاله , ما ترکیبی از شبکه‌های عصبی و بازگشتی دو طرفه را برای تحلیل احساسی در سطح اسناد و با تعبیه Doc2vec ارائه دادیم . مدل ترکیبی CNN - BiLSTM نتایج خوبی را در متن طولانی ارائه می‌کند , چرا که از توانایی CNN برای استخراج ویژگی‌ها و از BiLSTM برای یادگیری وابستگی‌های متقابل طولانی‌مدت متن بهره می‌برد . علاوه بر این, فرآیندهای تعبیه Doc2vecبرای نمایش متن در سطح پاراگراف , برای طبقه‌بندی سند متنی طولانی مناسب‌تر است , برخلاف پردازش متون کوتاه متداول بخصوص در شبکه‌های اجتماعی .

این مدل در یک مجموعه داده از مقاله‌های فرانسوی از روزنامه‌های اینترنتی آموزش داده شد . برای اعتبار سنجی( validation ) ما پنج مدل یادگیری عمیق به نام‌های CNN , LSTM , BiLSTM , CNN - LSTM وCNN - BiLSTM را با مطالعات تجربی مقایسه کردیم .

در کار آینده ، مدل پیشنهادی را می‌توان برای اسناد عربی بکار برد [ ۴۶ ] ، شامل مکانیزم مورد توجه برای تجزیه و تحلیل احساسات سطح سند [ ۴۷ ، ۴۸ ] ، و بررسی سایر embeddingsها مانند Glove و Fasttext

References

1. Liu, B. Sentiment analysis and opinion mining. Synth. Lect. Hum. Lang. Technol. 2012, 5, 1–167. [CrossRef]

2. Nasukawa, T.; Yi, J. Sentiment analysis: Capturing favorability using natural language processing.

In Proceedings of the 2nd International Conference on Knowledge Capture, Austin, TX, USA, 4–6 December

2003; pp. 70–77.

3. Kim, Y. Convolutional Neural Networks for Sentence Classification. In Proceedings of the 2014 Conference on

Empirical Methods in Natural Language Processing (EMNLP); Association for Computational Linguistics: Doha,

Qatar, 2014; pp. 1746–1751.

4. Sundermeyer, M.; Schlüter, R.; Ney, H. LSTM neural networks for language modeling. In Proceedings of the

Thirteenth annual conference of the international speech communication association, Portland, OR, USA,

9–13 September 2012.

5. Yin,W.; Kann, K.; Yu, M.; Schütze, H. Comparative study of CNN and RNN for natural language processing.

arXiv 2017, arXiv:1702.01923.

6. Goldberg, Y. Neural network methods for natural language processing. Synth. Lect. Hum. Lang. Technol.

2017, 10, 1–309. [CrossRef]

7. Pang, B.; Lee, L. Opinion mining and sentiment analysis. Found. Trends Inf. Retr. 2008, 2, 1–135. [CrossRef]

8. Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.S.; Dean, J. Distributed representations of words and phrases

and their compositionality. In Proceedings of the Advances in Neural Information Processing Systems,

Tahoe, NV, USA, 5–10 December 2013; pp. 3111–3119.

9. Le, Q.; Mikolov, T. Distributed representations of sentences and documents. In Proceedings of the 31th

International Conference on Machine Learning, Beijing, China, 21–26 June 2014; pp. 1188–1196.

10. Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Comput. 1997, 9, 1735–1780. [CrossRef]

11. Gers, F. Long Short-Term Memory in Recurrent Neural Networks. Ph.D. Thesis, Leibniz Universitat

Hannover, Hannover, Germany, 2001.

12. Greff, K.; Srivastava, R.K.; Koutník, J.; Steunebrink, B.R.; Schmidhuber, J. LSTM: A search space odyssey.

arXiv 2015, arXiv:1503.040692.

13. Lai, S.; Xu, L.; Liu, K.; Zhao, J. Recurrent convolutional neural networks for text classification. In Proceedings

of the 29th AAAI Conference on Artificial Intelligence, Austin, TX, USA, 25–30 January 2015.

14. Schuster, M.; Paliwal, K.K. Bidirectional recurrent neural networks. IEEE Trans. Signal Process. 1997, 45,

2673–2681. [CrossRef]

15. Tai, K.S.; Socher, R.; Manning, C.D. Improved semantic representations from tree-structured long short-term

memory networks. arXiv 2015, arXiv:1503.00075.

16. Gamal, D.; Alfonse, M.; M El-Horbaty, E.S.; M Salem, A.B. Analysis of Machine Learning Algorithms for

Opinion Mining in Different Domains. Mach. Learn. Knowl. Extr. 2019, 1, 224–234. [CrossRef]

17. Zhang, L.;Wang, S.; Liu, B. Deep learning for sentiment analysis: A survey. arXiv 2018, arXiv:1801.07883.

18. Go, A.; Bhayani, R.; Huang, L. Twitter Sentiment Classification Using Distant Supervision; CS224N Project

Report; Stanford University: Stanford, CA, USA, 2009.

19. Dong, L.;Wei, F.; Tan, C.; Tang, D.; Zhou, M.; Xu, K. Adaptive recursive neural network for target-dependent

twitter sentiment classification. In Proceedings of the 52nd annual meeting of the association for

computational linguistics (volume 2: Short papers), Baltimore, MD, USA, 22–27 June 2014; Volume 2,

pp. 49–54.

20. Tang, D.; Wei, F.; Qin, B.; Liu, T.; Zhou, M. Coooolll: A deep learning system for twitter sentiment

classification. In Proceedings of the 8th international workshop on semantic evaluation (SemEval 2014),

Dublin, Ireland, 23–24 August 2014; pp. 208–212.

21. Severyn, A.; Moschitti, A. Twitter sentiment analysis with deep convolutional neural networks.

In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in

Information Retrieval, Santiago, Chile, 9–13 August 2015; pp. 959–962.

22. Jianqiang, Z.; Xiaolin, G.; Xuejun, Z. Deep convolution neural networks for Twitter sentiment analysis.

IEEE Access 2018, 6, 23253–23260. [CrossRef]

23. Uysal, A.K.; Gunal, S. The impact of preprocessing on text classification. Inf. Process. Manag. 2014, 50,

104–112. [CrossRef]

24. Petz, G.; Karpowicz, M.; Fürschuß, H.; Auinger, A.; Winkler, S.M.; Schaller, S.; Holzinger, A. On text

preprocessing for opinion mining outside of laboratory environments. In International Conference on Active

Media Technology; Springer: Berlin, Germany, 2012; pp. 618–629.

25. Dos Santos, C.; Gatti, M. Deep convolutional neural networks for sentiment analysis of short texts.

In Proceedings of the COLING 2014, the 25th International Conference on Computational Linguistics,

Dublin, Ireland, 23–29 August 2014; pp. 69–78.

Mach. Learn. Knowl. Extr. 2019, 1 846

26. Zhou, P.; Qi, Z.; Zheng, S.; Xu, J.; Bao, H.; Xu, B. Text classification improved by integrating bidirectional

LSTM with two-dimensional max pooling. arXiv 2016, arXiv:1611.06639.

27. Wang, X.; Jiang, W.; Luo, Z. Combination of convolutional and recurrent neural network for sentiment

analysis of short texts. In Proceedings of the COLING 2016, the 26th International Conference on

Computational Linguistics, Osaka, Japan, 11–16 December 2016; pp. 2428–2437.

28. Yenter, A.; Verma, A. Deep CNN-LSTM with combined kernels from multiple branches for IMDb review

sentiment analysis. In Proceedings of the 2017 IEEE 8th Annual Ubiquitous Computing, Electronics and

Mobile Communication Conference (UEMCON), New York, NY, USA, 19–21 October 2017; pp. 540–546.

29. Shen, Q.; Wang, Z.; Sun, Y. Sentiment analysis of movie reviews based on cnn-blstm. In International

Conference on Intelligence Science; Springer: Berlin, Germany, 2017, pp. 164–171.

30. Yoon, J.; Kim, H. Multi-Channel Lexicon Integrated CNN-BiLSTM Models for Sentiment Analysis.

In Proceedings of the 29th Conference on Computational Linguistics and Speech Processing (ROCLING

2017), Taipei, Taiwan, 27–28 November 2017; pp. 244–253.

31. Sobkowicz, P.; Kaschesky, M.; Bouchard, G. Opinion mining in social media: Modeling, simulating,

and forecasting political opinions in the web. Gov. Inf. Q. 2012, 29, 470–479. [CrossRef]

32. Sarmento, L.; Carvalho, P.; Silva, M.J.; De Oliveira, E. Automatic creation of a reference corpus for

political opinion mining in user-generated content. In Proceedings of the 1st International CIKM Workshop on

Topic-Sentiment Analysis for Mass Opinion; ACM: New York, NY, USA, 2009; pp. 29–36.

33. Durant, K.T.; Smith, M.D. Mining sentiment classification from political web logs. In Proceedings of

Workshop on Web Mining and Web Usage Analysis of the 12th ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining (WebKDD-2006), Philadelphia, PA, USA, 20–23 August 2006.

34. Hu, Y.H.; Chen, Y.L.; Chou, H.L. Opinion mining from online hotel reviews–A text summarization approach.

Inf. Process. Manag. 2017, 53, 436–449. [CrossRef]

35. Yousfi, S.; Rhanoui, M.; Mikram, M. Comparative Study of CNN and RNN For Opinion Mining in Long Text.

In Proceeding of the International Conference on Modern Intelligent Systems Concepts, Rabat, Morocco,

12–13 December 2018.

36. Missen, M.M.S.; Boughanem, M.; Cabanac, G. Opinion mining: reviewed from word to document level.

Soc. Netw. Anal. Min. 2013, 3, 107–125. [CrossRef]

37. Yessenalina, A.; Yue, Y.; Cardie, C. Multi-level structured models for document-level sentiment classification.

In Proceedings of the 2010 conference on empirical methods in natural language processing. Association for

Computational Linguistics, Cambridge, MA, USA, 9–11 October 2010; pp. 1046–1056.

38. Rao, G.; Huang,W.; Feng, Z.; Cong, Q. LSTM with sentence representations for document-level sentiment

classification. Neurocomputing 2018, 308, 49–57. [CrossRef]

39. Fu, M.; Qu, H.; Huang, L.; Lu, L. Bag of meta-words: A novel method to represent document for the

sentiment classification. Expert Syst. Appl. 2018, 113, 33–43. [CrossRef]

40. Lau, J.H.; Baldwin, T. An empirical evaluation of doc2vec with practical insights into document embedding

generation. arXiv 2016, arXiv:1607.05368.

41. Jacovi, A.; Shalom, O.S.; Goldberg, Y. Understanding convolutional neural networks for text classification.

arXiv 2018, arXiv:1809.08037.

42. Hinton, G.E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. Improving neural networks

by preventing co-adaptation of feature detectors. arXiv 2012, arXiv:1207.0580.

43. LeCun, Y.A.; Bottou, L.; Orr, G.B.; Müller, K.R. Efficient backprop. In Neural Networks: Tricks of the Trade;

Springer: Berlin, Germany, 2012; pp. 9–48.

44. Bottou, L. Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT’2010;

Springer: Berlin, Germany, 2010; pp. 177–186.

45. Kingma, D.P.; Ba, J. Adam: A method for stochastic optimization. arXiv 2014, arXiv:1412.6980.

46. Shoukry, A.; Rafea, A. Sentence-level Arabic sentiment analysis. In Proceedings of the 2012 International

Conference on Collaboration Technologies and Systems (CTS), Denver, CO, USA, 21–25 May 2012;

pp. 546–550.

47. Wang, Y.; Huang, M.; Zhao, L. Attention-based LSTM for aspect-level sentiment classification. In Proceedings

of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, TA, USA, 1–5

November 2016; pp. 606–615.

Mach. Learn. Knowl. Extr. 2019, 1 847

48. Yang, Z.; Yang, D.; Dyer, C.; He, X.; Smola, A.; Hovy, E. Hierarchical attention networks for document

classification. In Proceedings of the 2016 Conference of the North American Chapter Of the Association

for Computational Linguistics: Human Language Technologies, San Diego, CA, USA, 12–17 June 2016;

pp. 1480–1489.

49. Pennington, J.; Socher, R.; Manning, C. Glove: Global vectors for word representation. In Proceedings of

the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 25–29

October 2014; pp. 1532–1543.

50. Bojanowski, P.; Grave, E.; Joulin, A.; Mikolov, T. Enriching word vectors with subword information.

Trans. Assoc. Comput. Linguist. 2017, 5, 135–146. [CrossRef]

sentiment analysisdocument levelDoc2vecCNN – BiLSTMBiLSTM
شاید از این پست‌ها خوشتان بیاید