کمیل آقابابایی
کمیل آقابابایی
خواندن ۲۶ دقیقه·۵ سال پیش

تحلیل احساسات و استخراج عقاید


Sentiment Analysis and Opinion Mining

بینگ لیو ، دانشگاه ایلینویز در شیکاگو


ترجمه شده توسط : کمیل آقابابایی دانشجوی ارشد نرم افزار دانشگاه آزاد بندرعباس

نکته : باتوجه به برگردان به زبان فارسی مسلما بعضی از مثال ها هم می بایست منطبق با زبان فارسی بیان می شد که در نتیجه ممکن است با نسخه اصلی کمی متفاوت باشد. برای فهم راحتتر مطالب نیز در برخی از موارد از تعاریف موجود در برخی مقالات داخلی استفاده شده (که منابع مربوط به آن نیز اشاره شده است.) و یا اینکه برداشت خودم از موضوع را نوشتم.

مطمئنا کار انجام شده دارای اشکالاتی نیز می باشد که بسیار خوشحال می شوم اشکالات مشاهده شده را برایم ارسال نمائید.

امیدوار هستم که مفید واقع شود.

babaiekomeil@gmail.com

سخنرانی‌های Synthesisدرباره تکنولوژی‌های زبان انسانی

ویرایشگر

Graeme Hirst، دانشگاه تورنتو


چکیده

آنالیز احساسی و استخراج نظرات حوزه مطالعاتی است که نظرات، احساسات، ارزیابی‌ها، نگرش‌ها و عواطف مردم را از زبان نوشتاری تحلیل می‌کند. این یکی از فعال ترین زمینه های تحقیقاتی در پردازش زبان طبیعی و همچنین به طور گسترده ای در زمینه داده کاوی ، وب کاوی و متن کاوی می باشد .در واقع ، این تحقیق به دلیل اهمیت آن برای تجارت و جامعه ، خارج از علوم رایانه به علوم مدیریت و علوم اجتماعی نیز گسترش یافته است.اهمیت روزافزون تجزیه و تحلیل احساسات همزمان با رشد رسانه های اجتماعی مانند بررسی ها ، بحث های انجمنی ، وبلاگ ها ، میکروبلاگ ها ، توییتر و شبکه های اجتماعی منطبق شده است. برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده به صورت دیجیتالی برای تجزیه و تحلیل ثبت شده است.

سیستم‌های تحلیل احساسی تقریباً در هر کسب‌وکار و حوزه اجتماعی به کار گرفته می‌شوند، زیرا عقاید در تمام فعالیت‌های انسانی نقش اساسی دارد و از تأثیرگذارترین رفتارهای ما می باشد. اعتقادات و برداشت ما از واقعیت و انتخاب هایی که ما انجام می دهیم ، تا حد زیادی مشروط به این است که دیگران چگونه دنیا را می‌بینند و ارزیابی می‌کنند. به همین دلیل، زمانی که ما نیاز به تصمیم‌گیری داریم، اغلب به دنبال عقاید دیگران هستیم.، این نه تنها برای افراد بلکه برای سازمان ها نیز صادق است.

این کتاب ، متنی مقدماتی و پیمایشی است که همه موضوعات مهم و آخرین تحولات در این زمینه با بیش از 400 مرجع پوشش می دهد. مناسب برای دانشجویان ، محققین و متخصصانی که به تجزیه و تحلیل رسانه های اجتماعی ، به طور کلی تحلیل احساسات علاقه مند هستند. به خصوص مدرسین می توانند به راحتی از آن در کلاس برای دوره های مربوط به پردازش زبان طبیعی ، اجتماعی ، تجزیه و تحلیل رسانه ها ، استخراج متن و داده کاوی استفاده کنند .

اسلایدها به صورت آنلاین نیز در دسترس هستند.

کلید واژه ها

تجزیه و تحلیل احساسات ، افکار اندیشی ، احساسات ، تأثیر ، ارزیابی ، نگرش ، روحیه ، رسانه های اجتماعی ،پیشرفت زبان طبیعی ، استخراج متن.

sentiment analysis, opinion mining, emotion, affect, evaluation, attitude, mood, social media,natural language progressing, text mining.

سپاسگذاری:

من می خواهم از دانشجویان سابق و فعلی خودم ، تشکر کنم :

Zhiyuan Chen, Xiaowen Ding, Geli Fei, Murthy Ganapathibhotla, Minqing Hu, Nitin Jindal, Huayi Li, Arjun Mukherjee, Quang Qiu(visiting student from Zhejiang University), William Underwood, Andrea Vaccari, Zhongwu Zhai (visiting student from Tsinghua University), and Lei Zhang

برای کمک به ایده های تحقیقاتی بیشمار در طول سال ها

بحث‌ها با بسیاری از محققان نیز به شکل دادن این کتاب کمک کرد:

Malu G.Castellanos,Dennis Chong, Umesh Dayal, Eduard Dragut, Riddhiman Ghosh, Natalie Glance,Meichun Hsu, Jing Jiang, Birgit König, Xiaoli Li, Tieyun Qian, Gang Xu, Philip S. Yu, Clement Yu, and ChengXiangZhai.

من همچنین از دو بازبین (reviewers) ناشناس بسیار سپاسگزارم. آنها علیرغم برنامه های شلوغ خود ، این کتاب را بسیار با دقت مطالعه کردند و پیشنهادات بسیار خوبی به من دادند. من در هنگام بهبود کتاب ، هرکدام از آنها را مورد توجه قرار داده ام.

در خصوص انتشار این کتاب نیز از سردبیر ، Dr. Graeme Hirst و President and CEO of Morgan & Claypool Publishers تشکر می کنم ، که توانسته اند همه کارها را به موقع انجام داده و بسیاری از توصیه های ارزشمند را در اختیار من قرار دهند.

سرانجام ، بزرگترین قدردانی من به خانواده خودم برمی گردد : Yue, Shelley, and Kate ، که از جهات مختلف به من کمک کرده اند.

فهرست

Preface....................................................................................................................... xiii پیش گفتار

1. Sentiment Analysis: A Fascinating Problem...........................................................1 تجزیه و تحلیل احساسات: یک مسئله جذاب

1.1 Sentiment Analysis Applications.......................................................................... 2 برنامه های کاربردی تجزیه و تحلیل احساسات

1.2 Sentiment Analysis Research................................................................................ 3 تحقیقات تجزیه و تحلیل احساسات

1.2.1 Different Levels of Analysis............................................................................... 4 سطوح مختلف تجزیه و تحلیل

1.2.2 Sentiment Lexicon and Its Issues....................................................................... 5 واژه نامه احساساتی و مسائل آن

1.2.3 Natural Language Processing Issues................................................................. 6 مسائل مربوط به پردازش زبان طبیعی

1.3 Opinion Spam Detection....................................................................................... 7 Spam تشخیص عقاید

1.4 What’s Ahead...................................................................................................... 7 چه چیزی پیش رو

پیشگفتار

عقاید تقریباً در تمام فعالیتهای انسانی بسیار مهم و از تأثیرگذارترین رفتارهای ما هستند. اعتقادات و برداشت های ما از واقعیت و انتخاب هایی که با توجه به آن ها انجام می دهیم ، تا حد قابل توجهی ، به چگونگی مشاهده و ارزیابی دیگران از جهان بستگی دارد. به همین دلیل ، هنگامی که ما نیاز به تصمیم گیری داریم ، غالباً نظر دیگران را جستجو می کنیم. این نه تنها در مورد افراد بلکه در مورد سازمان ها نیز صادق است.

عقاید و مفاهیم مرتبط مانند احساسات، ارزیابی‌ها، نگرش‌ها و عواطف ، موضوعات مورد مطالعه تحلیل احساسات و عقیده کاوی هستند. شروع و رشد سریع این زمینه همزمان با رسانه های اجتماعی در وب بوده است . به عنوان مثال بررسی ها ، بحث های انجمنی ، وبلاگ ها ، میکروبلاگ ها ، توییتر و شبکه های اجتماعی . برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده به صورت دیجیتالی برای تجزیه و تحلیل ثبت شده است. از اوایل سال 2000 ، تجزیه و تحلیل احساسات به یکی از فعال ترین زمینه های تحقیق در پردازش زبان طبیعی تبدیل شده است. همینطور به طور گسترده ای در زمینه داده کاوی ، وب کاوی و استخراج متن مورد مطالعه قرار گرفته است.

در واقع ، این پدیده به دلیل اهمیت آن برای تجارت و جامعه ، خارج از علوم رایانه به علوم مدیریت و علوم اجتماعی نیز گسترش یافته است.در سال های اخیر ، فعالیت های صنعتی پیرامون تحلیل احساسات نیز رونق گرفته است.استارت آپ های بی شماری پدید آمده است. بسیاری از شرکت های بزرگ ظرفیت های داخلی خود را ایجاد کرده اند. سیستم های تحلیل احساسات کاربردهای خود را تقریباً در هر تجارت و حوزه اجتماعی پیدا کرده اند.

هدف این کتاب ارائه مقدماتی عمیق از این مسئله جذاب و ارائه یک بررسی جامع از کلیه مباحث مهم تحقیقاتی و آخرین تحولات موجود در این زمینه است. که در همین راستا ، این کتاب بیش از 400 مقاله از همه کنفرانس ها و ژورنال های مهم را در بر گرفته است. گرچه این زمینه با متن زبان طبیعی سروکار دارد ، که غالباً داده های بدون ساختار محسوب می شوند ، لیکن این کتاب رویکردی ساختاری در معرفی این مسئله با هدف پیوند دادن جهان بدون ساختار و ساختار یافته و تسهیل تحلیل کیفی و کیفی نظرات در پیش گرفته است. که برای برنامه های علمی و کاربردی بسیار مهم می باشد. در این کتاب ابتدا برای ارائه مسئله یک انتزاع یا ساختار را تعریف خواهم کرد.

در این ساختار، ما به طور طبیعی زیر مسئله های خود را خواهیم دید. فصل‌های بعدی درباره تکنیک‌های موجود برای حل این زیر مسئله ها بحث و تبادل نظر می‌کنیم.

این کتاب برای دانش آموزان، پژوهشگران، و متخصصان که به تحلیل رسانه‌های اجتماعی به صورت کلی و یا خاص مورد توجه قرار می‌گیرند، مناسب است. مدرسین می‌توانند به آسانی از آن در کلاس برای دوره‌های پردازش زبان طبیعی، تحلیل رسانه‌های اجتماعی، استخراج متن و داده کاوی استفاده کنند. اسلایدها نیز به صورت آنلاین در دسترس هستند.

فصل 1

تجزیه و تحلیل احساسات:

یک مسئله جذاب

تجزیه و تحلیل احساسات ، که همچنین به عنوان افکار اندیشی (عقیده کاوی /نظر کاوی) خوانده می شود ، حوزه مطالعاتی است که نظرات، احساسات، ارزیابی‌ها، نگرش‌ها و احساسات نسبت به موجودیت‌های مثل محصولات، خدمات، سازمان‌ها، افراد، موضوعات، رویدادها، عناوین و ویژگی‌های آن‌ها را تجزیه و تحلیل می‌کند. اصطلاح تحلیل احساسات شاید برای اولین بار در Nasukawa و Yi(2003) و همچنین اصطلاح عقیده کاوی نیز برای اولین بار توسط Dave و همکارانش بیان شده است. (2003)

با این حال، تحقیقات در مورد احساسات و عقاید پیش‌تر از این ظاهر شده بودند (Das and Chen، ۲۰۰۱؛ Morinaga و همکاران، ۲۰۰۲؛ Pang و همکاران، ۲۰۰۲؛ Turney، ۲۰۰۲؛ wiebe، ۲۰۰۰).

در این کتاب ما از اصطلاحات تحلیل احساس و استخراج نظرات (opinion mining (sentiment analysis and به جای یکدیگر استفاده می‌کنیم. برای ساده کردن ارائه، در سراسر این کتاب ما از واژه opinion (عقیده /نظر) برای نشان دادن نظر، احساسات، ارزیابی، نگرش و احساس استفاده خواهیم کرد. با این حال، این مفاهیم هم‌ارز نیستند. ما زمانی که به آن‌ها نیاز داریم، آن‌ها را متمایز خواهیم کرد. مفهوم نظر opinion خودش خیلی گسترده است. تحلیل احساسی و استخراج نظرات عمدتاً بر نظراتی تمرکز می‌کنند که احساسات مثبت یا منفی را بیان می‌کنند.

اگر چه زبان‌شناسی و پردازش زبان طبیعی (NLP) سابقه طولانی دارند, اما تحقیقات کمی در مورد عقاید و احساسات مردم قبل از سال ۲۰۰۰انجام شده‌است. از آن زمان به بعد, این حوزه به یک حوزه تحقیقاتی بسیار فعال تبدیل شده‌است. دلایل مختلفی برای این موضوع وجود دارد. اول اینکه تقریباً در هر حوزه, کاربردهای وسیعی از برنامه‌ها وجود دارد. صنعت تحلیل احساسات نیز به دلیل گسترش کاربردهای تجاری رونق گرفته است. این یک انگیزه قوی برای تحقیق می تواند باشد. دوم اینکه، بسیاری از مشکلات تحقیقاتی چالش برانگیز را ارائه می دهد ، که قبلاً هرگز مورد مطالعه قرار نگرفته بودند. این کتاب به طور سیستماتیک این مشکلات را تعریف و بحث خواهد کرد ، و جدیدترین تکنیک های برای حل آنها را توصیف می کند. سوم اینکه ، برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده (opinionated data)در رسانه های اجتماعی در وب داریم. بدون این داده ها ، تحقیقات زیادی امکان پذیر نبود.

جای تعجب نیست که، شروع و رشد سریع تحلیل احساسات با رسانه‌های اجتماعی همزمان شده‌است. در حقیقت، تحلیل احساسی اکنون در مرکز تحقیقات رسانه‌های اجتماعی قرار دارد. از این رو، تحقیقات در مورد تحلیل احساسات نه تنها تاثیر مهمی بر NLPدارد بلکه ممکن است تاثیر عمیقی بر علوم مدیریتی، علوم سیاسی، اقتصاد و علوم اجتماعی داشته باشد چرا که همگی تحت‌تاثیر عقاید مردم قرار گرفته‌اند. اگرچه تحقیقات آنالیز احساسی اساساً از اوایل سال ۲۰۰۰ آغاز شد، لیکن برخی از تحقیقات اولیه در مورد تفسیر استعاره، صفات احساسی، ذهنیت، دیدگاه‌ها، و عواطف وجود داشته است (Hatzivassiloglou و mckeown، ۱۹۹۷؛ Hearst، ۱۹۹۰؛ wiebe، ۱۹۹۰؛ wiebe و همکاران، ۱۹۹۹).

این کتاب به عنوان یک متن مقدماتی به روز و جامع و همچنین یک بررسی در مورد این موضوع عمل می‌کند.

1.1 برنامه های کاربردی تجزیه و تحلیل احساسات

عقاید تقریباً در مرکز تمام فعالیت‌های انسانی قرار دارند, زیرا تاثیر مهمی بر رفتارهای ما دارند.هر زمان که ما نیاز به تصمیم‌گیری داریم, می‌خواهیم نظرات دیگران را بدانیم. در دنیای واقعی, شرکت‌ها و سازمان‌ها همیشه خواهان پیدا کردن نظرات مشتریان یا عموم در مورد محصولات و خدماتشان هستند. مصرف کنندگان نیز می‌خواهند نظرات کاربران موجود یک محصول را قبل از خرید آن, و نظرات دیگران درباره نامزدهای سیاسی قبل از تصمیم‌گیری در انتخابات سیاسی بدانند. در گذشته, وقتی فردی به اظهار نظر نیاز داشت, از دوستان و خانواده‌اش می‌پرسید.وقتی یک سازمان یا یک کسب‌وکار به نظرات عمومی یا مصرف‌کننده نیاز داشت, بررسی‌ها, نظرسنجی‌ها و گروه‌های متمرکز را انجام می داد. کسب نظرات عمومی و مصرف‌کننده از دیرباز یک کسب و کار بزرگ برای بازاریابی, روابط‌عمومی, و شرکت‌های تبلیغاتی سیاسی بوده‌است.

با رشد شگفت انگیز رسانه‌های اجتماعی (به عنوان مثال، reviews، بحث‌های اجتماعی، بلاگ ها، میکروبلاگ ها، توییتر، نظرات، و پست‌های شبکه اجتماعی) در وب، افراد و سازمان‌ها به طور فزاینده‌ای از محتوای این رسانه‌ها برای تصمیم‌گیری استفاده می‌کنند. این روزها، اگر کسی بخواهد کالای مصرفی را بخرد، دیگر محدود به پرسیدن از دوستان و خانواده تان برای نظرات نیست چون نظرات و بحث‌های بسیاری از کاربران در فورم های عمومی درباره محصول وجود دارد. برای یک سازمان ممکن است دیگر نیازی به انجام نظرسنجی ها و ایجاد گروه های متمرکز به منظور جمع آوری افکار عمومی نباشد زیرا تعداد زیادی از این اطلاعات در دسترس عموم قرار دارد. با این حال ، یافتن و پایش نظرات بر روی وب و تقطیر اطلاعات موجود در آنها به دلیل تکثیر سایت‌های گوناگون یک وظیفه دشوار است.هر سایت معمولاً حاوی حجم بالایی از متن نظرات است که به راحتی در بلاگ ها و پست ها قابل رمزگشایی و فهمیدن نمی باشند. معمولا به کارگیری روش های سنتی(خواندن نظرات توسط انسان) در شناسایی سایت‌های مرتبط و استخراج و خلاصه کردن نظرات با مشکلات فراوان روبرو خواهند شد. بنابراین سیستم‌های آنالیز احساسی خودکار مورد نیاز هستند.

در سال‌های اخیر شاهد بوده‌ایم که پست هایی در رسانه‌های اجتماعی به تغییر شکل مشاغل و تغییر احساسات و عواطف عمومی کمک کرده است که تأثیرات زیادی بر سیستم های اجتماعی و سیاسی ما داشته اند.مانند پست هایی که برای تغییرات سیاسی که در برخی از کشورهای عربی در سال ۲۰۱۱ رخ داده‌است.

بنابراین جمع آوری و مطالعه نظرات در وب به یک ضرورت تبدیل شده است. البته اسناد منتشر شده نه تنها در وب وجود دارد (داده خارجی نامیده می شود)( called external data) ، بلکه بسیاری از سازمان ها داده های داخلی خود را نیز دارند ، به عنوان مثال ، بازخورد مشتری جمع آوری شده از ایمیل و مراکز تماس یا نتایج حاصل از نظرسنجی های انجام شده توسط سازمان ها.

به خاطر این کاربردها، فعالیت‌های صنعتی در سال‌های اخیر رشد کرده‌اند. برنامه‌های آنالیز احساسی تقریباً در هر حوزه ممکن، از محصولات مصرفی، خدمات، مراقبت‌های بهداشتی و خدمات مالی برای رویداده‌ای اجتماعی و انتخابات سیاسی گسترش‌یافته اند. من خودم یک سیستم تحلیل احساسی به نام تجزیه‌گر نظر(Opinion parser) را اجرا کرده‌ام و در همه این زمینه‌ها در یک شرکت تازه‌کار بر روی پروژه‌ها کار کرده‌ام. در ایالات‌متحده حداقل ۴۰ تا ۶۰ شرکت فعال در این رابطه وجود دارد. بسیاری از شرکت‌های بزرگ نیز قابلیت‌های داخلی خود را ساخته‌اند، به عنوان مثال، مایکروسافت، گوگل، هیولت - پاکارد، SAP، و SAS. این کاربردهای عملی و علایق صنعتی انگیزه‌های قوی برای تحقیق در آنالیز احساسی فراهم کرده‌اند.

جدا از کاربردهای دنیای واقعی، بسیاری از مقالات تحقیقات محور نیز منتشر شده‌اند. به عنوان مثال، لیو و همکاران (۲۰۰۷) یک مدل احساسی برای پیش‌بینی عملکرد فروش پیشنهاد شد.

McGlohon و همکاران (۲۰۱۰)، مقالات برای رتبه‌بندی محصولات و تجار مورد استفاده قرار گرفتند. هنگ‌کنگ و skiena )۲۰۱۰)، روابط بین خطوط شرط‌بندی NFL و نظرات عمومی در وبلاگ‌ها و توییتر مورد مطالعه قرار گرفت. در O " کانر و همکاران (۲۰۱۰)، احساسات تویی‌تر با نظرسنجی‌های افکار عمومی مرتبط بود. در Tumasjan و همکاران (۲۰۱۰)، احساسات تویی‌تر برای پیش‌بینی نتایج انتخابات نیز اعمال شد. در چن و همکاران (۲۰۱۰)، نویسندگان نقطه نظرات سیاسی را مورد مطالعه قرار دادند. در yano و Smith )۲۰۱۰(، یک روش برای پیش‌بینی حجم کامنت های سیاسی گزارش شد. در Asur و Huberman )۲۰۱۰(، جوشی و همکاران (۲۰۱۰) و Sadikov و همکاران (۲۰۰۹)، داده‌های تویی‌تر، بررسی‌های فیلم و بلاگ ها برای پیش‌بینی درآمد گیشه فروش برای فیلم‌ها استفاده شدند. در میلر و همکاران (۲۰۱۱)، جریان احساسات در شبکه‌های اجتماعی مورد بررسی قرار گرفت. محمد و یانگ (۲۰۱۱)، احساسات در mails برای پیدا کردن این که چگونه جنسیت در محور احساسات متفاوت است، مورد استفاده قرار گرفتند. در محمد (۲۰۱۱)، احساسات در رمان و داستان‌های پریان مورد پی‌گیری قرار گرفتند.

Bollen و همکاران (۲۰۱۱)، حالات تویی‌تر برای پیش‌بینی بازار سهام مورد استفاده قرار گرفتند. در بار - Haim و همکاران(2011) و فلدمن و همکاران (2011), سرمایه گذاران متخصص در microblogsشناسایی شدند و آنالیز احساسی سهام انجام شد. در ژانگ و skiena (2010) وبلاگ و احساسات اخبار برای مطالعه استراتژی‌های تجاری مورد استفاده قرار گرفتند. در Sakunkoo و Sakunkoo (2009), تاثیرات اجتماعی در بررسی‌های کتاب آنلاین مورد مطالعه قرار گرفت. در Grohو Hauffa (2011), آنالیز احساسی برای مشخص کردن روابط اجتماعی مورد استفاده قرار گرفت. یک سیستم آنالیز احساسی جامع و برخی مطالعات موردی نیز در Castellanosو همکاران (2011) گزارش شده‌اند.

گروه من نظرات را در مورد فیلم‌ها در تویتر‌دنبال کرد و درآمدهای باکس آفیس را با نتایج بسیار دقیق پیش‌بینی کرده‌است. ما به سادگی از سیستم parser Opinionبرای تجزیه و تحلیل نظرات مثبت و منفی در مورد هر فیلم با هیچ الگوریتم اضافی دیگری استفاده نکردیم.

1.2 تحقیقات در خصوص تجزیه و تحلیل احساسات

همانطور که در بالا بحث شد, کاربردهای فراگیر در زندگی تنها بخشی از دلیلی هستند که چرا تحلیل احساسات یک مسئله تحقیقاتی محبوب است. همچنین به عنوان یک موضوع تحقیقاتی NLPبسیار چالش برانگیز است و بسیاری از زیر مسئله‌های جدیدی را که بعداً خواهیم دید را پوشش می‌دهد. علاوه بر این, تحقیقات اندکی در سال2000 در روش nlpو یا در زبان‌شناسی انجام شده است. که دلیل آن این است که قبل از آن نظرات کمی در فرم‌های دیجیتال به صورت متنی وجود داشت. از سال نو میلادی, این حوزه به سرعت به یکی از فعال‌ترین حوزه های تحقیقاتی NLPتبدیل شده‌است. همچنین تحقیقات گسترده‌ای در داده‌کاوی ، وب کاوی و بازیابی اطلاعات صورت‌گرفته است. در واقع از علوم کامپیوتر گرفته تا علوم مدیریتی نیز گسترش پیدا کرده‌است.

(Archak و همکاران، ۲۰۰۷؛ چن و Xie، ۲۰۰۸؛ داس و همکاران، ۲۰۰۷؛ Dellarocasو همکاران، ۲۰۰۷؛ Ghose و همکاران، ۲۰۰۷؛ پارک و همکاران (۲۰۰۷).

1.2.1 سطوح مختلف تجزیه و تحلیل

من اکنون مقدمه‌ای کوتاه بر مشکلات اصلی تحقیق براساس سطح سطوح تحقیقاتی فعلی ارائه می‌کنم. به طور کلی, تحلیل احساسات عمدتاً در سه سطح بررسی شده‌است.

سطح سند: وظیفه در این سطح ، طبقه‌بندی اسناد بر اساس دارا بودن احساس مثبت یا منفی می باشد(Pangو همکاران، ۲۰۰۲؛ Turney، ۲۰۰۲). به عنوان مثال، با توجه به یک مرور نظرات در رابطه با یک محصول، سیستم تعیین می‌کند که در مجموع نظر کلی در رابطه با آن محصول مثبت یا منفی می باشد. این وظیفه معمولاً به عنوان طبقه‌بندی احساسات سطح سند شناخته می‌شود. این سطح از تجزیه و تحلیل فرض می‌کند که هر سند نظرات در مورد یک موجودیت واحد را بیان می‌کند (به عنوان مثال، یک محصول). بنابراین، برای اسنادی که ماهیت چندگانه را ارزیابی یا مقایسه می‌کنند، قابل‌اجرا نیست.

سطح جمله: وظیفه در این سطح به جملات بستگی دارد و مشخص می‌کند که آیا هر جمله یک نظر مثبت، منفی و یا خنثی است. خنثی معمولاً به معنای نداشتن نظر نیست. این سطح از تجزیه و تحلیل رابطه نزدیکی با طبقه‌بندی ذهنی دارد (wiebeو همکاران ۱۹۹۹)، آنچه که باعث تمایز جملات می شود (جملات عینی نامیده می شود) می‌شود ، که اطلاعات واقعی را از جملات بیان می‌کنند و (جملات ذهنی نامیده می‌شوند) که دیدگاه ها و نظرات شخصی را بیان می‌کنند. با این حال, ما باید توجه داشته باشیم که ذهنیت معادل احساس نیست, همان طور که بسیاری از جملات عینی می‌توانند به یک نظر اشاره داشته باشد.مانند:

" We bought the car last month and the windshield wiper has fallen off ."

یا دو جمله روبرو: " اوضاع شرکت خیلی نگران کننده است " و " من فکر می کنم با آمدن این مدیر عامل جدید ، شرکت حتما ورشکست می شود"

جمله اول احساسی را راجع به یک شرکت که گوینده در آن کار می کند را بیان می کند و جمله دوم نظری را که حاصل یک تفکر است گوینده است را ببان می کند.

]بر گرفته شده از اکادمی داده[

ماهیت و سطح ابعاد(Entity and Aspect level): هر دو تجزیه و تحلیل‌های سطح سند و سطح جمله چیزی را که مردم دقیقاً دوست دارند و دوست ندارند، پوشش نمی دهد. Aspect Level آنالیز خوبی را انجام می دهد. سطح ابعاد قبلاً سطح ویژگی ها (جمع آوری و تفسیر نظرات مبتنی بر ویژگی ها) خوانده می شد (هو و لیو ، 2004).

در این دسته ویژگیهای خاصی از این موجودیت مورد توجه قرار می گیرد برای مثال اگر نظرات پیرامون یک گوشی موبایل باشند: باطری، صفحه نمایش، بدنه و... ویژگی هایی از این گوشی موبایل می باشند . در گزارش نهایی این دسته میزان رضایت نظرات کاربران نسبت به هر ویژگی بیان می شود.

]برگرفته شده ازمقاله نظرکاوی :سید محمد اصغری نکاح ، محسن کاهانی و احسان عسگریان[

Aspect Level به جای نگاه کردن به ساختارهای زبان (اسناد، پاراگراف‌ها، جملات، بندها، یا عبارات)، به طور مستقیم به خود نظر نگاه می‌کند. براساس این ایده است که یک نظریه شامل یک احساس (مثبت یا منفی) ویا یک هدف (از نظر) است.یک نظر بدون مشخص شدن برچسب آن (مثبت /منفی/خنثی) استفاده محدودی می تواند داشته باشد. درک اهمیت این برچسب ها به ما کمک می‌کند تا مساله تحلیل احساسات را بهتر درک کنیم.برای مثال:

Although the service is not that great , I still love this restaurant . ""

"اگرچه خدمات آنچنان عالی نیست ، اما من هنوز هم این رستوران را دوست دارم."

واضح است که این جمله کاملاً مثبت است. در واقع, جمله در مورد رستوران مثبت است, اما در مورد خدمت آن منفی است (تاکید نشده). در بسیاری از برنامه ها برچسب های نظری توسط and / or ابعاد مختلف آن‌ها توصیف می‌شوند. بنابراین, هدف این سطح تحلیل, کشف احساس با استفاده از توسط and / or بر روی ویژگی یا ابعاد آن‌ها است. برای مثال, جمله " کیفیت تماس آیفون خوب است, اما عمر باتری آن کوتاه است. " ارزیابی دو بعد : کیفیت تماس و عمر باتری, از آیفون (موجودیت).

احساس در کیفیت تماس آیفون مثبت است, اما احساس در عمر باتری منفی است. کیفیت تماس و عمر باتری iphone بعد(ویژگی) نظری هستند. براساس این سطح تحلیل, یک خلاصه ساختار یافته درباره موجودیت ها و ابعاد آن‌ها می‌تواند تولید شود که متن بدون ساختار را به داده‌های ساختاریافته تبدیل می‌کند و می‌تواند برای انواع تحلیل‌های کیفی و کمی مورد استفاده قرار گیرد. هر دو طبقه‌بندی سطح سند و سطح جمله بسیار چالش برانگیز هستند. سطح بعد حتی سخت‌تر است. این مساله شامل چندین زیر مساله است که در فصول 2 و 5 از آن مورد بحث قرار خواهیم گرفت.

برای اینکه موضوع را جالب‌تر و چالش برانگیز تر کنیم، دو نوع عقیده وجود دارد ، یعنی عقاید منظم و عقاید مقایسه ای (Jindal and Liu، 2006 b.). برای مثال، "طعم کوکاکولا" بسیار خوب است، که بیانگر احساس مثبت در مورد مزه نوشابه کوکاکولا است. یک نظر مقایسه‌ای چند موجودیت را براساس برخی از ابعاد مشترک آن‌ها مقایسه می‌کند، به عنوان مثال، "کوکاکولا" بهتر از پپسی است، که کوکاکولا و پپسی را براساس طعم (یک بعد یا ویژگی) مقایسه می‌کند و یک اولویت برای کوکاکولا بیان می‌کند (مراجعه به فصل ۸).

1.2.2 واژگان احساساتی و مسائل مربوط به آن

جای تعجب نیست که مهمترین شاخصه های احساسات ، کلمات احساساتی هستند که به آنها اصطلاحات نظر opinion words نیز گفته می شود. این‌ها کلماتی هستند که معمولاً برای بیان احساسات مثبت یا منفی استفاده می‌شوند. برای مثال خوب، عالی، و فوق‌العاده کلمات احساسات مثبت هستند، و بد، ضعیف و وحشتناک کلمات احساسی منفی هستند. علاوه بر کلمات منحصربه فرد، عبارات و اصطلاحات نیز وجود دارند، به طور مثال، به قیمت خون پدرش. کلمات و عبارات احساسی به دلایل آشکاری برای تحلیل احساسات مفید هستند. فهرستی از این کلمات و عبارات یک واژه‌نامه حسی (یا واژه‌نامه نظر / عقیده) نامیده می‌شود.

(sentiment lexicon ( or opinion lexicon )) با گذشت سالها ، محققان الگوریتم های بی شماری برای گردآوری چنین واژگان طراحی کرده اند. ما در فصل 6 درباره این الگوریتم ها صحبت خواهیم کرد.

اگرچه کلمات و عبارات احساساتی برای تحلیل احساسات مهم هستند ، اما تنها استفاده از آنها کافی نیست. مسئله بسیار پیچیده تر است. به عبارت دیگر ، می توان گفت که واژگان احساساتی برای تحلیل احساسات لازم اما کافی نیستند. در زیر ، ما چندین مسئله را روشن می کنیم.

1- یک کلمه احساسات مثبت یا منفی ممکن است جهت های متضادی(معکوسی) در دامنه های کاربردهای مختلف داشته باشد. به عنوان مثال ، "برید" معمولاً بیانگر احساسات منفی است ، به عنوان مثال. ، "امیر دستش را با چاقو برید." اما می تواند دلالت مثبتی داشته باشد ، به عنوان مثال ، "امیر برای افتتاح رستوران روبان قرمز را برید."

2- جمله ای که حاوی کلمات احساسی است ممکن است هیچ احساسی را بیان نکند. این پدیده اغلب در انواع مختلفی از جملات رخ می‌دهد. جملات سوالی (پرسشی) و شرطی دو نوع مهم از این پدیده هستند، مثلاً "آیا می‌توانید بگویید کدام دوربین سونی خوب است؟ " و " اگر من بتوانم یک دوربین خوب در مغازه پیدا کنم، آن را خواهم خرید." هر دوی این جملات حاوی واژه "خوب" هستند، اما نظرات مثبت یا منفی را در مورد هر دوربینی سونی را نشان نمی‌دهند. با این حال، تمام جملات شرطی یا جملات پرسشی مورد نظر هیچ احساسی ندارند، به طور مثال، "آیا کسی می‌داند چطور این چاپگر وحشتناک را تعمیر کند؟ " و " اگر به دنبال یک ماشین خوب هستید, تویوتا را بخرید. " ما در فصل 4 به چنین جملاتی می‌پردازیم.

3- جملات طعنه‌آمیز با یا بدون کلمات احساسی آن ها بسیار دشوار است. جملات طعنه آمیز با یا بدون کلمات احساساتی دشوار است ، برای مثال ، "چه ماشین عالی!

طعنه/کنایه در نظرات مصرف كنندگان درباره محصولات و خدمات چندان مرسوم نیست ، اما در بحث های سیاسی بسیار رایج است که نظرات سیاسی را سخت می کند. ما در فصل 4 چنین جملاتی را مورد بحث قرار خواهیم داد.

4- بسیاری از جملات بدون کلمات احساساتی نیز می توانند حاکی از عقاید باشند. بسیاری از این جملات در واقع جملات عینی هستند که برای بیان برخی اطلاعات واقعی به کار می روند. باز هم ، انواع بسیاری از جمله ها وجود دارد. در اینجا ما فقط دو مثال آورده ایم. جمله "این ماشین لباسشویی از آب زیادی استفاده می کند." دلالت بر احساس منفی در مورد شستشو دارد زیرا از منابع زیادی (آب) استفاده می کند. جمله "پس از دو روز خوابیدن روی تشک ، وسط شکل گودی گرفته است." نظر منفی در مورد تشک بیان می کند. این جمله همانطور که واقعیت را بیان می کند عینی است. همه این جملات هیچ کلمه احساساتی ندارند.

این مسائل، همه چالش‌های عمده را در بر دارند. در حقیقت اینها تنها برخی از مشکلات دشوار هستند. مطالب بیشتر در فصل ۵ مورد بحث قرار خواهند گرفت.

1.2.3 مسائل مربوط به پردازش زبان طبیعی

در نهایت، نباید فراموش کنیم که آنالیز احساسی یک مساله NLPاست که همه ابعاد از NLPرا لمس می‌کند، به عنوان مثال، coreference resolution، بررسی انکار، و ابهام‌زدایی معنایی کلمات که مشکلات بیشتری را به آن اضافه می‌کند، از آنجایی که مشکلات حل‌شده در NLPحل نمی‌شوند. با این حال، مفید است که درک کنیم که آنالیز احساسی یک مساله NLP محدود است، زیرا سیستم نیازی به درک کامل معنای هر جمله یا سند ندارد بلکه باید برخی از بعدهای آن را درک کند، به عنوان مثال، احساسات مثبت یا منفی و ماهیت اهداف یا موضوعات آن‌ها. در این حالت، تجزیه و تحلیل احساسی یک پلت فرم عالی برای محققان NLPارایه می‌کند. در این حالت ، تجزیه و تحلیل احساسات بستر بزرگی را برای محققان NLP فراهم می کند تا در همه حوزه های NLPبا پتانسیل ایجاد تأثیر عملی عظیم ، پیشرفت های محسوسی داشته باشند. در این کتاب مشکلات اصلی و وضعیت فعلی الگوریتم ها را بیان خواهم کرد. امید است که از این کتاب برای جذب محققان از حوزه‌های دیگر nlp جهت تمرکز برای حل این مشکل استفاده شود.

پیش از این کتاب ، چند جلد کتاب تحت عنوان " نگرش و تأثیر محاسبات در متن: نظریه و کاربردها " وجود داشته است که توسط Shanahan, Qu, and Wiebe (2006), ویرایش شده است . و همچنین یک مقاله / کتاب توسط Pang and Lee (2008) . هر دو این کتاب مطالب عالی دارند. با این حال ، آنها در توسعه این زمینه نسبتاً زود منتشر شدند. از آن زمان به بعد پیشرفت‌های قابل‌توجهی به خاطر تحقیقات فراوان در ۵ سال گذشته به وجود آمده است. اکنون محققان درک بهتری از کل طیف مسئله ، ساختار آن و موضوعات اصلی دارند. تعداد زیادی مدل و روش جدید ارائه شده است. تحقیقات نه تنها عمیق تر شده بلکه به طور قابل توجهی گسترش یافته است. تحقیقات اولیه در این زمینه عمدتاً بر طبقه بندی احساسات یا ذهنیت بیان شده در اسناد یا جملات متمرکز بوده است که برای اکثر برنامه های کاربردی در زندگی واقعی کافی نیست. کاربردهای عملی اغلب خواستار تجزیه و تحلیل عمیق و دقیق‌تری هستند. با توجه به بلوغ این حوزه، این کتاب به شکل ساختاریافته تری نوشته شده است ، به این معنا که اکنون مسئله از نظر ساختاری تعریف شده است و جهت های مختلف تحقیقاتی پیرامون این تعریف متحد می شوند.

1.3 تشخیص عقاید Spam

ویژگی کلیدی رسانه اجتماعی این است که هر کسی را از هر جایی در جهان قادر می‌سازد تا آزادانه دیدگاه‌ها و نظرات خود را بیان کند و بدون افشای نام واقعی اش و بدون ترس از عواقب نامطلوب، نظرات و عقائد خود را بیان کند. این نظرات بسیار با ارزش هستند. با این حال ، این ناشناسی همچنین دارای قیمتی است. این امکان را به افراد دارای برنامه های مخفی با اهداف مخرب می دهد تا بتوانند به مردم این احساس را بدهند که آن‌ها عضو مستقلی در افکار عمومی هستند و نظرات جعلی را برای ترویج و بی‌اعتبار کردن محصولات ، خدمات، سازمان‌ها ، یا افراد هدف ، بدون افشای نیت واقعی خود، یا شخص یا سازمانی که به طور مخفیانه برای آن کار می‌کنند، ارایه دهند. به اینگونه افراد opinion spammersگفته می شود و فعالیت های آنها opinion spamming نام دارد (Jindal and Liu، 2007، 2008).

اسپم سازی نظر ، به یک موضوع مهم تبدیل شده است. به غیر از افرادی که در بررسی ها و بحث در مورد فورم نظرهای جعلی می دهند ، شرکت های تجاری نیز وجود دارند که در زمینه نوشتن نظرات جعلی و وبلاگ های جعلی برای مشتریان خود فعالیت می کنند. چندین مورد از مشاهدات جعلی در اخبار منتشر شده است. شناسایی اسپم مهم است تا اطمینان حاصل شود که عقاید وب یک منبع قابل‌اعتماد از اطلاعات با ارزش هستند. برخلاف استخراج نظرات مثبت و منفی، تشخیص اسپم تنها یک مسئله NLPنیست زیرا شامل تجزیه و تحلیل رفتارهای posting افراد است. بنابراین یک مساله داده کاوی نیز وجود دارد. فصل ۱۰ درباره روش‌های تشخیص وضعیت کنونی بحث خواهد کرد.

1.4 مسائل پیش رو

در این کتاب، ما این موضوع جذاب را بررسی می‌کنیم. اگرچه کتاب با متن زبان طبیعی سر و کار دارد، که داده‌های بدون ساختار خوانده می‌شوند، لیکن من یک رویکرد ساختاری برای نوشتن این کتاب اتخاذ می‌کنم. فصل بعدی به طور رسمی این مساله را تعریف خواهم کرد که به ما اجازه می‌دهد تا ساختاری از این مساله را ببینیم. ما از این تعریف وظایف کلیدی آنالیز احساسی را خواهیم دید. در فصل‌های بعدی، تکنیک‌های موجود برای انجام وظایف تشریح می‌شوند. با توجه به تحقیق، مشاوره، و تجربیات شروع، این کتاب نه تنها مفاهیم تحقیق کلیدی را مورد بحث قرار می‌دهد بلکه به فن‌آوری از نقطه‌نظر کاربردی به منظور کمک به افراد حرفه‌ای در این زمینه نگاه می‌کند. با این حال، من باید عذر خواهی کنم که وقتی در مورد سیستم‌های صنعتی صحبت می‌کنم، نمی‌توانم نام شرکت‌ها یا سیستم‌های آن‌ها را فاش کنم، تا حدی به خاطر این واقعیت که بازار تحلیل احساسات به سرعت حرکت می‌کند و شرکت‌هایی که من می‌شناسم ممکن است الگوریتم خود را هنگام خواندن این کتاب تغییر داده یا اصلاح کنند. نمی‌خواهم برای آن‌ها و خودم مشکل ایجاد کنم .

اگرچه من سعی می‌کنم همه ایده‌ها و تکنیک‌های اصلی را در این کتاب پوشش دهم، اما این کار به یک کار غیر ممکن تبدیل شده‌است. در دهه گذشته، تعداد زیادی از مقالات تحقیقاتی (احتمالا بیش از ۱۰۰۰) در این موضوع منتشر شده‌اند. اگرچه اکثر مقالات در کنفرانس‌ها و مجلات NLP منتشر شده‌اند، مقالات بسیاری در داده کاوی، وب کاوی، یادگیری ماشین، بازیابی اطلاعات، تجارت الکترونیک، علوم مدیریتی و بسیاری از زمینه‌های دیگر منتشر شده‌اند. بنابراین نوشتن کتابی که ایده‌ها را در هر مقاله منتشر شده پوشش می‌دهد تقریباً غیرممکن است. متاسفم که ایده‌ها یا تکنیک‌های خوب شما نادیده گرفته می‌شوند. با این حال، یک مزیت اصلی انتشار این کتاب در مجموعه کنفرانس سخنرانی Morgan & Claypool این است که نویسندگان همیشه می‌توانند مطالب جدید به روز رسانی شده را به این کتاب اضافه کنند، زیرا ویرایش های جدید همیشه مورد تقاضا می باشد. بنابراین اگر شما متوجه شدید که برخی ایده‌های مهم مورد بحث جا مانده است ، لطفاً تردید نکنید و به من اطلاع دهید ، بسیار خوشحال می‌شوم که از آن ها استفاده کنم.

سرانجام ، دانش پیش زمینه در زمینه های زیر در خواندن این کتاب بسیار مفید خواهد بود:

پردازش زبان طبیعی (Indurkhya and Damerau, 2010; Manning and Schutze, 1999) ، یادگیری ماشین (Bishop, 2006; Mitchell, 1997)و بازیابی اطلاعات (Manning et al., 2008).

تجزیه و تحلیل احساساتopinion miningنظرکاویعقیده کاویsentiment analysis
شاید از این پست‌ها خوشتان بیاید