Sentiment Analysis and Opinion Mining
ترجمه شده توسط : کمیل آقابابایی دانشجوی ارشد نرم افزار دانشگاه آزاد بندرعباس
نکته : باتوجه به برگردان به زبان فارسی مسلما بعضی از مثال ها هم می بایست منطبق با زبان فارسی بیان می شد که در نتیجه ممکن است با نسخه اصلی کمی متفاوت باشد. برای فهم راحتتر مطالب نیز در برخی از موارد از تعاریف موجود در برخی مقالات داخلی استفاده شده (که منابع مربوط به آن نیز اشاره شده است.) و یا اینکه برداشت خودم از موضوع را نوشتم.
مطمئنا کار انجام شده دارای اشکالاتی نیز می باشد که بسیار خوشحال می شوم اشکالات مشاهده شده را برایم ارسال نمائید.
امیدوار هستم که مفید واقع شود.
babaiekomeil@gmail.com
سخنرانیهای Synthesisدرباره تکنولوژیهای زبان انسانی
ویرایشگر
Graeme Hirst، دانشگاه تورنتو
چکیده
آنالیز احساسی و استخراج نظرات حوزه مطالعاتی است که نظرات، احساسات، ارزیابیها، نگرشها و عواطف مردم را از زبان نوشتاری تحلیل میکند. این یکی از فعال ترین زمینه های تحقیقاتی در پردازش زبان طبیعی و همچنین به طور گسترده ای در زمینه داده کاوی ، وب کاوی و متن کاوی می باشد .در واقع ، این تحقیق به دلیل اهمیت آن برای تجارت و جامعه ، خارج از علوم رایانه به علوم مدیریت و علوم اجتماعی نیز گسترش یافته است.اهمیت روزافزون تجزیه و تحلیل احساسات همزمان با رشد رسانه های اجتماعی مانند بررسی ها ، بحث های انجمنی ، وبلاگ ها ، میکروبلاگ ها ، توییتر و شبکه های اجتماعی منطبق شده است. برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده به صورت دیجیتالی برای تجزیه و تحلیل ثبت شده است.
سیستمهای تحلیل احساسی تقریباً در هر کسبوکار و حوزه اجتماعی به کار گرفته میشوند، زیرا عقاید در تمام فعالیتهای انسانی نقش اساسی دارد و از تأثیرگذارترین رفتارهای ما می باشد. اعتقادات و برداشت ما از واقعیت و انتخاب هایی که ما انجام می دهیم ، تا حد زیادی مشروط به این است که دیگران چگونه دنیا را میبینند و ارزیابی میکنند. به همین دلیل، زمانی که ما نیاز به تصمیمگیری داریم، اغلب به دنبال عقاید دیگران هستیم.، این نه تنها برای افراد بلکه برای سازمان ها نیز صادق است.
این کتاب ، متنی مقدماتی و پیمایشی است که همه موضوعات مهم و آخرین تحولات در این زمینه با بیش از 400 مرجع پوشش می دهد. مناسب برای دانشجویان ، محققین و متخصصانی که به تجزیه و تحلیل رسانه های اجتماعی ، به طور کلی تحلیل احساسات علاقه مند هستند. به خصوص مدرسین می توانند به راحتی از آن در کلاس برای دوره های مربوط به پردازش زبان طبیعی ، اجتماعی ، تجزیه و تحلیل رسانه ها ، استخراج متن و داده کاوی استفاده کنند .
اسلایدها به صورت آنلاین نیز در دسترس هستند.
کلید واژه ها
تجزیه و تحلیل احساسات ، افکار اندیشی ، احساسات ، تأثیر ، ارزیابی ، نگرش ، روحیه ، رسانه های اجتماعی ،پیشرفت زبان طبیعی ، استخراج متن.
sentiment analysis, opinion mining, emotion, affect, evaluation, attitude, mood, social media,natural language progressing, text mining.
سپاسگذاری:
من می خواهم از دانشجویان سابق و فعلی خودم ، تشکر کنم :
Zhiyuan Chen, Xiaowen Ding, Geli Fei, Murthy Ganapathibhotla, Minqing Hu, Nitin Jindal, Huayi Li, Arjun Mukherjee, Quang Qiu(visiting student from Zhejiang University), William Underwood, Andrea Vaccari, Zhongwu Zhai (visiting student from Tsinghua University), and Lei Zhang
برای کمک به ایده های تحقیقاتی بیشمار در طول سال ها
بحثها با بسیاری از محققان نیز به شکل دادن این کتاب کمک کرد:
Malu G.Castellanos,Dennis Chong, Umesh Dayal, Eduard Dragut, Riddhiman Ghosh, Natalie Glance,Meichun Hsu, Jing Jiang, Birgit König, Xiaoli Li, Tieyun Qian, Gang Xu, Philip S. Yu, Clement Yu, and ChengXiangZhai.
من همچنین از دو بازبین (reviewers) ناشناس بسیار سپاسگزارم. آنها علیرغم برنامه های شلوغ خود ، این کتاب را بسیار با دقت مطالعه کردند و پیشنهادات بسیار خوبی به من دادند. من در هنگام بهبود کتاب ، هرکدام از آنها را مورد توجه قرار داده ام.
در خصوص انتشار این کتاب نیز از سردبیر ، Dr. Graeme Hirst و President and CEO of Morgan & Claypool Publishers تشکر می کنم ، که توانسته اند همه کارها را به موقع انجام داده و بسیاری از توصیه های ارزشمند را در اختیار من قرار دهند.
سرانجام ، بزرگترین قدردانی من به خانواده خودم برمی گردد : Yue, Shelley, and Kate ، که از جهات مختلف به من کمک کرده اند.
فهرست
Preface....................................................................................................................... xiii پیش گفتار
1. Sentiment Analysis: A Fascinating Problem...........................................................1 تجزیه و تحلیل احساسات: یک مسئله جذاب
1.1 Sentiment Analysis Applications.......................................................................... 2 برنامه های کاربردی تجزیه و تحلیل احساسات
1.2 Sentiment Analysis Research................................................................................ 3 تحقیقات تجزیه و تحلیل احساسات
1.2.1 Different Levels of Analysis............................................................................... 4 سطوح مختلف تجزیه و تحلیل
1.2.2 Sentiment Lexicon and Its Issues....................................................................... 5 واژه نامه احساساتی و مسائل آن
1.2.3 Natural Language Processing Issues................................................................. 6 مسائل مربوط به پردازش زبان طبیعی
1.3 Opinion Spam Detection....................................................................................... 7 Spam تشخیص عقاید
1.4 What’s Ahead...................................................................................................... 7 چه چیزی پیش رو
پیشگفتار
عقاید تقریباً در تمام فعالیتهای انسانی بسیار مهم و از تأثیرگذارترین رفتارهای ما هستند. اعتقادات و برداشت های ما از واقعیت و انتخاب هایی که با توجه به آن ها انجام می دهیم ، تا حد قابل توجهی ، به چگونگی مشاهده و ارزیابی دیگران از جهان بستگی دارد. به همین دلیل ، هنگامی که ما نیاز به تصمیم گیری داریم ، غالباً نظر دیگران را جستجو می کنیم. این نه تنها در مورد افراد بلکه در مورد سازمان ها نیز صادق است.
عقاید و مفاهیم مرتبط مانند احساسات، ارزیابیها، نگرشها و عواطف ، موضوعات مورد مطالعه تحلیل احساسات و عقیده کاوی هستند. شروع و رشد سریع این زمینه همزمان با رسانه های اجتماعی در وب بوده است . به عنوان مثال بررسی ها ، بحث های انجمنی ، وبلاگ ها ، میکروبلاگ ها ، توییتر و شبکه های اجتماعی . برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده به صورت دیجیتالی برای تجزیه و تحلیل ثبت شده است. از اوایل سال 2000 ، تجزیه و تحلیل احساسات به یکی از فعال ترین زمینه های تحقیق در پردازش زبان طبیعی تبدیل شده است. همینطور به طور گسترده ای در زمینه داده کاوی ، وب کاوی و استخراج متن مورد مطالعه قرار گرفته است.
در واقع ، این پدیده به دلیل اهمیت آن برای تجارت و جامعه ، خارج از علوم رایانه به علوم مدیریت و علوم اجتماعی نیز گسترش یافته است.در سال های اخیر ، فعالیت های صنعتی پیرامون تحلیل احساسات نیز رونق گرفته است.استارت آپ های بی شماری پدید آمده است. بسیاری از شرکت های بزرگ ظرفیت های داخلی خود را ایجاد کرده اند. سیستم های تحلیل احساسات کاربردهای خود را تقریباً در هر تجارت و حوزه اجتماعی پیدا کرده اند.
هدف این کتاب ارائه مقدماتی عمیق از این مسئله جذاب و ارائه یک بررسی جامع از کلیه مباحث مهم تحقیقاتی و آخرین تحولات موجود در این زمینه است. که در همین راستا ، این کتاب بیش از 400 مقاله از همه کنفرانس ها و ژورنال های مهم را در بر گرفته است. گرچه این زمینه با متن زبان طبیعی سروکار دارد ، که غالباً داده های بدون ساختار محسوب می شوند ، لیکن این کتاب رویکردی ساختاری در معرفی این مسئله با هدف پیوند دادن جهان بدون ساختار و ساختار یافته و تسهیل تحلیل کیفی و کیفی نظرات در پیش گرفته است. که برای برنامه های علمی و کاربردی بسیار مهم می باشد. در این کتاب ابتدا برای ارائه مسئله یک انتزاع یا ساختار را تعریف خواهم کرد.
در این ساختار، ما به طور طبیعی زیر مسئله های خود را خواهیم دید. فصلهای بعدی درباره تکنیکهای موجود برای حل این زیر مسئله ها بحث و تبادل نظر میکنیم.
این کتاب برای دانش آموزان، پژوهشگران، و متخصصان که به تحلیل رسانههای اجتماعی به صورت کلی و یا خاص مورد توجه قرار میگیرند، مناسب است. مدرسین میتوانند به آسانی از آن در کلاس برای دورههای پردازش زبان طبیعی، تحلیل رسانههای اجتماعی، استخراج متن و داده کاوی استفاده کنند. اسلایدها نیز به صورت آنلاین در دسترس هستند.
فصل 1
تجزیه و تحلیل احساسات:
یک مسئله جذاب
تجزیه و تحلیل احساسات ، که همچنین به عنوان افکار اندیشی (عقیده کاوی /نظر کاوی) خوانده می شود ، حوزه مطالعاتی است که نظرات، احساسات، ارزیابیها، نگرشها و احساسات نسبت به موجودیتهای مثل محصولات، خدمات، سازمانها، افراد، موضوعات، رویدادها، عناوین و ویژگیهای آنها را تجزیه و تحلیل میکند. اصطلاح تحلیل احساسات شاید برای اولین بار در Nasukawa و Yi(2003) و همچنین اصطلاح عقیده کاوی نیز برای اولین بار توسط Dave و همکارانش بیان شده است. (2003)
با این حال، تحقیقات در مورد احساسات و عقاید پیشتر از این ظاهر شده بودند (Das and Chen، ۲۰۰۱؛ Morinaga و همکاران، ۲۰۰۲؛ Pang و همکاران، ۲۰۰۲؛ Turney، ۲۰۰۲؛ wiebe، ۲۰۰۰).
در این کتاب ما از اصطلاحات تحلیل احساس و استخراج نظرات (opinion mining (sentiment analysis and به جای یکدیگر استفاده میکنیم. برای ساده کردن ارائه، در سراسر این کتاب ما از واژه opinion (عقیده /نظر) برای نشان دادن نظر، احساسات، ارزیابی، نگرش و احساس استفاده خواهیم کرد. با این حال، این مفاهیم همارز نیستند. ما زمانی که به آنها نیاز داریم، آنها را متمایز خواهیم کرد. مفهوم نظر opinion خودش خیلی گسترده است. تحلیل احساسی و استخراج نظرات عمدتاً بر نظراتی تمرکز میکنند که احساسات مثبت یا منفی را بیان میکنند.
اگر چه زبانشناسی و پردازش زبان طبیعی (NLP) سابقه طولانی دارند, اما تحقیقات کمی در مورد عقاید و احساسات مردم قبل از سال ۲۰۰۰انجام شدهاست. از آن زمان به بعد, این حوزه به یک حوزه تحقیقاتی بسیار فعال تبدیل شدهاست. دلایل مختلفی برای این موضوع وجود دارد. اول اینکه تقریباً در هر حوزه, کاربردهای وسیعی از برنامهها وجود دارد. صنعت تحلیل احساسات نیز به دلیل گسترش کاربردهای تجاری رونق گرفته است. این یک انگیزه قوی برای تحقیق می تواند باشد. دوم اینکه، بسیاری از مشکلات تحقیقاتی چالش برانگیز را ارائه می دهد ، که قبلاً هرگز مورد مطالعه قرار نگرفته بودند. این کتاب به طور سیستماتیک این مشکلات را تعریف و بحث خواهد کرد ، و جدیدترین تکنیک های برای حل آنها را توصیف می کند. سوم اینکه ، برای نخستین بار در تاریخ بشریت ، اکنون حجم عظیمی از داده های تفسیر شده (opinionated data)در رسانه های اجتماعی در وب داریم. بدون این داده ها ، تحقیقات زیادی امکان پذیر نبود.
جای تعجب نیست که، شروع و رشد سریع تحلیل احساسات با رسانههای اجتماعی همزمان شدهاست. در حقیقت، تحلیل احساسی اکنون در مرکز تحقیقات رسانههای اجتماعی قرار دارد. از این رو، تحقیقات در مورد تحلیل احساسات نه تنها تاثیر مهمی بر NLPدارد بلکه ممکن است تاثیر عمیقی بر علوم مدیریتی، علوم سیاسی، اقتصاد و علوم اجتماعی داشته باشد چرا که همگی تحتتاثیر عقاید مردم قرار گرفتهاند. اگرچه تحقیقات آنالیز احساسی اساساً از اوایل سال ۲۰۰۰ آغاز شد، لیکن برخی از تحقیقات اولیه در مورد تفسیر استعاره، صفات احساسی، ذهنیت، دیدگاهها، و عواطف وجود داشته است (Hatzivassiloglou و mckeown، ۱۹۹۷؛ Hearst، ۱۹۹۰؛ wiebe، ۱۹۹۰؛ wiebe و همکاران، ۱۹۹۹).
این کتاب به عنوان یک متن مقدماتی به روز و جامع و همچنین یک بررسی در مورد این موضوع عمل میکند.
1.1 برنامه های کاربردی تجزیه و تحلیل احساسات
عقاید تقریباً در مرکز تمام فعالیتهای انسانی قرار دارند, زیرا تاثیر مهمی بر رفتارهای ما دارند.هر زمان که ما نیاز به تصمیمگیری داریم, میخواهیم نظرات دیگران را بدانیم. در دنیای واقعی, شرکتها و سازمانها همیشه خواهان پیدا کردن نظرات مشتریان یا عموم در مورد محصولات و خدماتشان هستند. مصرف کنندگان نیز میخواهند نظرات کاربران موجود یک محصول را قبل از خرید آن, و نظرات دیگران درباره نامزدهای سیاسی قبل از تصمیمگیری در انتخابات سیاسی بدانند. در گذشته, وقتی فردی به اظهار نظر نیاز داشت, از دوستان و خانوادهاش میپرسید.وقتی یک سازمان یا یک کسبوکار به نظرات عمومی یا مصرفکننده نیاز داشت, بررسیها, نظرسنجیها و گروههای متمرکز را انجام می داد. کسب نظرات عمومی و مصرفکننده از دیرباز یک کسب و کار بزرگ برای بازاریابی, روابطعمومی, و شرکتهای تبلیغاتی سیاسی بودهاست.
با رشد شگفت انگیز رسانههای اجتماعی (به عنوان مثال، reviews، بحثهای اجتماعی، بلاگ ها، میکروبلاگ ها، توییتر، نظرات، و پستهای شبکه اجتماعی) در وب، افراد و سازمانها به طور فزایندهای از محتوای این رسانهها برای تصمیمگیری استفاده میکنند. این روزها، اگر کسی بخواهد کالای مصرفی را بخرد، دیگر محدود به پرسیدن از دوستان و خانواده تان برای نظرات نیست چون نظرات و بحثهای بسیاری از کاربران در فورم های عمومی درباره محصول وجود دارد. برای یک سازمان ممکن است دیگر نیازی به انجام نظرسنجی ها و ایجاد گروه های متمرکز به منظور جمع آوری افکار عمومی نباشد زیرا تعداد زیادی از این اطلاعات در دسترس عموم قرار دارد. با این حال ، یافتن و پایش نظرات بر روی وب و تقطیر اطلاعات موجود در آنها به دلیل تکثیر سایتهای گوناگون یک وظیفه دشوار است.هر سایت معمولاً حاوی حجم بالایی از متن نظرات است که به راحتی در بلاگ ها و پست ها قابل رمزگشایی و فهمیدن نمی باشند. معمولا به کارگیری روش های سنتی(خواندن نظرات توسط انسان) در شناسایی سایتهای مرتبط و استخراج و خلاصه کردن نظرات با مشکلات فراوان روبرو خواهند شد. بنابراین سیستمهای آنالیز احساسی خودکار مورد نیاز هستند.
در سالهای اخیر شاهد بودهایم که پست هایی در رسانههای اجتماعی به تغییر شکل مشاغل و تغییر احساسات و عواطف عمومی کمک کرده است که تأثیرات زیادی بر سیستم های اجتماعی و سیاسی ما داشته اند.مانند پست هایی که برای تغییرات سیاسی که در برخی از کشورهای عربی در سال ۲۰۱۱ رخ دادهاست.
بنابراین جمع آوری و مطالعه نظرات در وب به یک ضرورت تبدیل شده است. البته اسناد منتشر شده نه تنها در وب وجود دارد (داده خارجی نامیده می شود)( called external data) ، بلکه بسیاری از سازمان ها داده های داخلی خود را نیز دارند ، به عنوان مثال ، بازخورد مشتری جمع آوری شده از ایمیل و مراکز تماس یا نتایج حاصل از نظرسنجی های انجام شده توسط سازمان ها.
به خاطر این کاربردها، فعالیتهای صنعتی در سالهای اخیر رشد کردهاند. برنامههای آنالیز احساسی تقریباً در هر حوزه ممکن، از محصولات مصرفی، خدمات، مراقبتهای بهداشتی و خدمات مالی برای رویدادهای اجتماعی و انتخابات سیاسی گسترشیافته اند. من خودم یک سیستم تحلیل احساسی به نام تجزیهگر نظر(Opinion parser) را اجرا کردهام و در همه این زمینهها در یک شرکت تازهکار بر روی پروژهها کار کردهام. در ایالاتمتحده حداقل ۴۰ تا ۶۰ شرکت فعال در این رابطه وجود دارد. بسیاری از شرکتهای بزرگ نیز قابلیتهای داخلی خود را ساختهاند، به عنوان مثال، مایکروسافت، گوگل، هیولت - پاکارد، SAP، و SAS. این کاربردهای عملی و علایق صنعتی انگیزههای قوی برای تحقیق در آنالیز احساسی فراهم کردهاند.
جدا از کاربردهای دنیای واقعی، بسیاری از مقالات تحقیقات محور نیز منتشر شدهاند. به عنوان مثال، لیو و همکاران (۲۰۰۷) یک مدل احساسی برای پیشبینی عملکرد فروش پیشنهاد شد.
McGlohon و همکاران (۲۰۱۰)، مقالات برای رتبهبندی محصولات و تجار مورد استفاده قرار گرفتند. هنگکنگ و skiena )۲۰۱۰)، روابط بین خطوط شرطبندی NFL و نظرات عمومی در وبلاگها و توییتر مورد مطالعه قرار گرفت. در O " کانر و همکاران (۲۰۱۰)، احساسات توییتر با نظرسنجیهای افکار عمومی مرتبط بود. در Tumasjan و همکاران (۲۰۱۰)، احساسات توییتر برای پیشبینی نتایج انتخابات نیز اعمال شد. در چن و همکاران (۲۰۱۰)، نویسندگان نقطه نظرات سیاسی را مورد مطالعه قرار دادند. در yano و Smith )۲۰۱۰(، یک روش برای پیشبینی حجم کامنت های سیاسی گزارش شد. در Asur و Huberman )۲۰۱۰(، جوشی و همکاران (۲۰۱۰) و Sadikov و همکاران (۲۰۰۹)، دادههای توییتر، بررسیهای فیلم و بلاگ ها برای پیشبینی درآمد گیشه فروش برای فیلمها استفاده شدند. در میلر و همکاران (۲۰۱۱)، جریان احساسات در شبکههای اجتماعی مورد بررسی قرار گرفت. محمد و یانگ (۲۰۱۱)، احساسات در mails برای پیدا کردن این که چگونه جنسیت در محور احساسات متفاوت است، مورد استفاده قرار گرفتند. در محمد (۲۰۱۱)، احساسات در رمان و داستانهای پریان مورد پیگیری قرار گرفتند.
Bollen و همکاران (۲۰۱۱)، حالات توییتر برای پیشبینی بازار سهام مورد استفاده قرار گرفتند. در بار - Haim و همکاران(2011) و فلدمن و همکاران (2011), سرمایه گذاران متخصص در microblogsشناسایی شدند و آنالیز احساسی سهام انجام شد. در ژانگ و skiena (2010) وبلاگ و احساسات اخبار برای مطالعه استراتژیهای تجاری مورد استفاده قرار گرفتند. در Sakunkoo و Sakunkoo (2009), تاثیرات اجتماعی در بررسیهای کتاب آنلاین مورد مطالعه قرار گرفت. در Grohو Hauffa (2011), آنالیز احساسی برای مشخص کردن روابط اجتماعی مورد استفاده قرار گرفت. یک سیستم آنالیز احساسی جامع و برخی مطالعات موردی نیز در Castellanosو همکاران (2011) گزارش شدهاند.
گروه من نظرات را در مورد فیلمها در تویتردنبال کرد و درآمدهای باکس آفیس را با نتایج بسیار دقیق پیشبینی کردهاست. ما به سادگی از سیستم parser Opinionبرای تجزیه و تحلیل نظرات مثبت و منفی در مورد هر فیلم با هیچ الگوریتم اضافی دیگری استفاده نکردیم.
1.2 تحقیقات در خصوص تجزیه و تحلیل احساسات
همانطور که در بالا بحث شد, کاربردهای فراگیر در زندگی تنها بخشی از دلیلی هستند که چرا تحلیل احساسات یک مسئله تحقیقاتی محبوب است. همچنین به عنوان یک موضوع تحقیقاتی NLPبسیار چالش برانگیز است و بسیاری از زیر مسئلههای جدیدی را که بعداً خواهیم دید را پوشش میدهد. علاوه بر این, تحقیقات اندکی در سال2000 در روش nlpو یا در زبانشناسی انجام شده است. که دلیل آن این است که قبل از آن نظرات کمی در فرمهای دیجیتال به صورت متنی وجود داشت. از سال نو میلادی, این حوزه به سرعت به یکی از فعالترین حوزه های تحقیقاتی NLPتبدیل شدهاست. همچنین تحقیقات گستردهای در دادهکاوی ، وب کاوی و بازیابی اطلاعات صورتگرفته است. در واقع از علوم کامپیوتر گرفته تا علوم مدیریتی نیز گسترش پیدا کردهاست.
(Archak و همکاران، ۲۰۰۷؛ چن و Xie، ۲۰۰۸؛ داس و همکاران، ۲۰۰۷؛ Dellarocasو همکاران، ۲۰۰۷؛ Ghose و همکاران، ۲۰۰۷؛ پارک و همکاران (۲۰۰۷).
1.2.1 سطوح مختلف تجزیه و تحلیل
من اکنون مقدمهای کوتاه بر مشکلات اصلی تحقیق براساس سطح سطوح تحقیقاتی فعلی ارائه میکنم. به طور کلی, تحلیل احساسات عمدتاً در سه سطح بررسی شدهاست.
سطح سند: وظیفه در این سطح ، طبقهبندی اسناد بر اساس دارا بودن احساس مثبت یا منفی می باشد(Pangو همکاران، ۲۰۰۲؛ Turney، ۲۰۰۲). به عنوان مثال، با توجه به یک مرور نظرات در رابطه با یک محصول، سیستم تعیین میکند که در مجموع نظر کلی در رابطه با آن محصول مثبت یا منفی می باشد. این وظیفه معمولاً به عنوان طبقهبندی احساسات سطح سند شناخته میشود. این سطح از تجزیه و تحلیل فرض میکند که هر سند نظرات در مورد یک موجودیت واحد را بیان میکند (به عنوان مثال، یک محصول). بنابراین، برای اسنادی که ماهیت چندگانه را ارزیابی یا مقایسه میکنند، قابلاجرا نیست.
سطح جمله: وظیفه در این سطح به جملات بستگی دارد و مشخص میکند که آیا هر جمله یک نظر مثبت، منفی و یا خنثی است. خنثی معمولاً به معنای نداشتن نظر نیست. این سطح از تجزیه و تحلیل رابطه نزدیکی با طبقهبندی ذهنی دارد (wiebeو همکاران ۱۹۹۹)، آنچه که باعث تمایز جملات می شود (جملات عینی نامیده می شود) میشود ، که اطلاعات واقعی را از جملات بیان میکنند و (جملات ذهنی نامیده میشوند) که دیدگاه ها و نظرات شخصی را بیان میکنند. با این حال, ما باید توجه داشته باشیم که ذهنیت معادل احساس نیست, همان طور که بسیاری از جملات عینی میتوانند به یک نظر اشاره داشته باشد.مانند:
" We bought the car last month and the windshield wiper has fallen off ."
یا دو جمله روبرو: " اوضاع شرکت خیلی نگران کننده است " و " من فکر می کنم با آمدن این مدیر عامل جدید ، شرکت حتما ورشکست می شود"
جمله اول احساسی را راجع به یک شرکت که گوینده در آن کار می کند را بیان می کند و جمله دوم نظری را که حاصل یک تفکر است گوینده است را ببان می کند.
]بر گرفته شده از اکادمی داده[
ماهیت و سطح ابعاد(Entity and Aspect level): هر دو تجزیه و تحلیلهای سطح سند و سطح جمله چیزی را که مردم دقیقاً دوست دارند و دوست ندارند، پوشش نمی دهد. Aspect Level آنالیز خوبی را انجام می دهد. سطح ابعاد قبلاً سطح ویژگی ها (جمع آوری و تفسیر نظرات مبتنی بر ویژگی ها) خوانده می شد (هو و لیو ، 2004).
در این دسته ویژگیهای خاصی از این موجودیت مورد توجه قرار می گیرد برای مثال اگر نظرات پیرامون یک گوشی موبایل باشند: باطری، صفحه نمایش، بدنه و... ویژگی هایی از این گوشی موبایل می باشند . در گزارش نهایی این دسته میزان رضایت نظرات کاربران نسبت به هر ویژگی بیان می شود.
]برگرفته شده ازمقاله نظرکاوی :سید محمد اصغری نکاح ، محسن کاهانی و احسان عسگریان[
Aspect Level به جای نگاه کردن به ساختارهای زبان (اسناد، پاراگرافها، جملات، بندها، یا عبارات)، به طور مستقیم به خود نظر نگاه میکند. براساس این ایده است که یک نظریه شامل یک احساس (مثبت یا منفی) ویا یک هدف (از نظر) است.یک نظر بدون مشخص شدن برچسب آن (مثبت /منفی/خنثی) استفاده محدودی می تواند داشته باشد. درک اهمیت این برچسب ها به ما کمک میکند تا مساله تحلیل احساسات را بهتر درک کنیم.برای مثال:
Although the service is not that great , I still love this restaurant . ""
"اگرچه خدمات آنچنان عالی نیست ، اما من هنوز هم این رستوران را دوست دارم."
واضح است که این جمله کاملاً مثبت است. در واقع, جمله در مورد رستوران مثبت است, اما در مورد خدمت آن منفی است (تاکید نشده). در بسیاری از برنامه ها برچسب های نظری توسط and / or ابعاد مختلف آنها توصیف میشوند. بنابراین, هدف این سطح تحلیل, کشف احساس با استفاده از توسط and / or بر روی ویژگی یا ابعاد آنها است. برای مثال, جمله " کیفیت تماس آیفون خوب است, اما عمر باتری آن کوتاه است. " ارزیابی دو بعد : کیفیت تماس و عمر باتری, از آیفون (موجودیت).
احساس در کیفیت تماس آیفون مثبت است, اما احساس در عمر باتری منفی است. کیفیت تماس و عمر باتری iphone بعد(ویژگی) نظری هستند. براساس این سطح تحلیل, یک خلاصه ساختار یافته درباره موجودیت ها و ابعاد آنها میتواند تولید شود که متن بدون ساختار را به دادههای ساختاریافته تبدیل میکند و میتواند برای انواع تحلیلهای کیفی و کمی مورد استفاده قرار گیرد. هر دو طبقهبندی سطح سند و سطح جمله بسیار چالش برانگیز هستند. سطح بعد حتی سختتر است. این مساله شامل چندین زیر مساله است که در فصول 2 و 5 از آن مورد بحث قرار خواهیم گرفت.
برای اینکه موضوع را جالبتر و چالش برانگیز تر کنیم، دو نوع عقیده وجود دارد ، یعنی عقاید منظم و عقاید مقایسه ای (Jindal and Liu، 2006 b.). برای مثال، "طعم کوکاکولا" بسیار خوب است، که بیانگر احساس مثبت در مورد مزه نوشابه کوکاکولا است. یک نظر مقایسهای چند موجودیت را براساس برخی از ابعاد مشترک آنها مقایسه میکند، به عنوان مثال، "کوکاکولا" بهتر از پپسی است، که کوکاکولا و پپسی را براساس طعم (یک بعد یا ویژگی) مقایسه میکند و یک اولویت برای کوکاکولا بیان میکند (مراجعه به فصل ۸).
1.2.2 واژگان احساساتی و مسائل مربوط به آن
جای تعجب نیست که مهمترین شاخصه های احساسات ، کلمات احساساتی هستند که به آنها اصطلاحات نظر opinion words نیز گفته می شود. اینها کلماتی هستند که معمولاً برای بیان احساسات مثبت یا منفی استفاده میشوند. برای مثال خوب، عالی، و فوقالعاده کلمات احساسات مثبت هستند، و بد، ضعیف و وحشتناک کلمات احساسی منفی هستند. علاوه بر کلمات منحصربه فرد، عبارات و اصطلاحات نیز وجود دارند، به طور مثال، به قیمت خون پدرش. کلمات و عبارات احساسی به دلایل آشکاری برای تحلیل احساسات مفید هستند. فهرستی از این کلمات و عبارات یک واژهنامه حسی (یا واژهنامه نظر / عقیده) نامیده میشود.
(sentiment lexicon ( or opinion lexicon )) با گذشت سالها ، محققان الگوریتم های بی شماری برای گردآوری چنین واژگان طراحی کرده اند. ما در فصل 6 درباره این الگوریتم ها صحبت خواهیم کرد.
اگرچه کلمات و عبارات احساساتی برای تحلیل احساسات مهم هستند ، اما تنها استفاده از آنها کافی نیست. مسئله بسیار پیچیده تر است. به عبارت دیگر ، می توان گفت که واژگان احساساتی برای تحلیل احساسات لازم اما کافی نیستند. در زیر ، ما چندین مسئله را روشن می کنیم.
1- یک کلمه احساسات مثبت یا منفی ممکن است جهت های متضادی(معکوسی) در دامنه های کاربردهای مختلف داشته باشد. به عنوان مثال ، "برید" معمولاً بیانگر احساسات منفی است ، به عنوان مثال. ، "امیر دستش را با چاقو برید." اما می تواند دلالت مثبتی داشته باشد ، به عنوان مثال ، "امیر برای افتتاح رستوران روبان قرمز را برید."
2- جمله ای که حاوی کلمات احساسی است ممکن است هیچ احساسی را بیان نکند. این پدیده اغلب در انواع مختلفی از جملات رخ میدهد. جملات سوالی (پرسشی) و شرطی دو نوع مهم از این پدیده هستند، مثلاً "آیا میتوانید بگویید کدام دوربین سونی خوب است؟ " و " اگر من بتوانم یک دوربین خوب در مغازه پیدا کنم، آن را خواهم خرید." هر دوی این جملات حاوی واژه "خوب" هستند، اما نظرات مثبت یا منفی را در مورد هر دوربینی سونی را نشان نمیدهند. با این حال، تمام جملات شرطی یا جملات پرسشی مورد نظر هیچ احساسی ندارند، به طور مثال، "آیا کسی میداند چطور این چاپگر وحشتناک را تعمیر کند؟ " و " اگر به دنبال یک ماشین خوب هستید, تویوتا را بخرید. " ما در فصل 4 به چنین جملاتی میپردازیم.
3- جملات طعنهآمیز با یا بدون کلمات احساسی آن ها بسیار دشوار است. جملات طعنه آمیز با یا بدون کلمات احساساتی دشوار است ، برای مثال ، "چه ماشین عالی!
طعنه/کنایه در نظرات مصرف كنندگان درباره محصولات و خدمات چندان مرسوم نیست ، اما در بحث های سیاسی بسیار رایج است که نظرات سیاسی را سخت می کند. ما در فصل 4 چنین جملاتی را مورد بحث قرار خواهیم داد.
4- بسیاری از جملات بدون کلمات احساساتی نیز می توانند حاکی از عقاید باشند. بسیاری از این جملات در واقع جملات عینی هستند که برای بیان برخی اطلاعات واقعی به کار می روند. باز هم ، انواع بسیاری از جمله ها وجود دارد. در اینجا ما فقط دو مثال آورده ایم. جمله "این ماشین لباسشویی از آب زیادی استفاده می کند." دلالت بر احساس منفی در مورد شستشو دارد زیرا از منابع زیادی (آب) استفاده می کند. جمله "پس از دو روز خوابیدن روی تشک ، وسط شکل گودی گرفته است." نظر منفی در مورد تشک بیان می کند. این جمله همانطور که واقعیت را بیان می کند عینی است. همه این جملات هیچ کلمه احساساتی ندارند.
این مسائل، همه چالشهای عمده را در بر دارند. در حقیقت اینها تنها برخی از مشکلات دشوار هستند. مطالب بیشتر در فصل ۵ مورد بحث قرار خواهند گرفت.
1.2.3 مسائل مربوط به پردازش زبان طبیعی
در نهایت، نباید فراموش کنیم که آنالیز احساسی یک مساله NLPاست که همه ابعاد از NLPرا لمس میکند، به عنوان مثال، coreference resolution، بررسی انکار، و ابهامزدایی معنایی کلمات که مشکلات بیشتری را به آن اضافه میکند، از آنجایی که مشکلات حلشده در NLPحل نمیشوند. با این حال، مفید است که درک کنیم که آنالیز احساسی یک مساله NLP محدود است، زیرا سیستم نیازی به درک کامل معنای هر جمله یا سند ندارد بلکه باید برخی از بعدهای آن را درک کند، به عنوان مثال، احساسات مثبت یا منفی و ماهیت اهداف یا موضوعات آنها. در این حالت، تجزیه و تحلیل احساسی یک پلت فرم عالی برای محققان NLPارایه میکند. در این حالت ، تجزیه و تحلیل احساسات بستر بزرگی را برای محققان NLP فراهم می کند تا در همه حوزه های NLPبا پتانسیل ایجاد تأثیر عملی عظیم ، پیشرفت های محسوسی داشته باشند. در این کتاب مشکلات اصلی و وضعیت فعلی الگوریتم ها را بیان خواهم کرد. امید است که از این کتاب برای جذب محققان از حوزههای دیگر nlp جهت تمرکز برای حل این مشکل استفاده شود.
پیش از این کتاب ، چند جلد کتاب تحت عنوان " نگرش و تأثیر محاسبات در متن: نظریه و کاربردها " وجود داشته است که توسط Shanahan, Qu, and Wiebe (2006), ویرایش شده است . و همچنین یک مقاله / کتاب توسط Pang and Lee (2008) . هر دو این کتاب مطالب عالی دارند. با این حال ، آنها در توسعه این زمینه نسبتاً زود منتشر شدند. از آن زمان به بعد پیشرفتهای قابلتوجهی به خاطر تحقیقات فراوان در ۵ سال گذشته به وجود آمده است. اکنون محققان درک بهتری از کل طیف مسئله ، ساختار آن و موضوعات اصلی دارند. تعداد زیادی مدل و روش جدید ارائه شده است. تحقیقات نه تنها عمیق تر شده بلکه به طور قابل توجهی گسترش یافته است. تحقیقات اولیه در این زمینه عمدتاً بر طبقه بندی احساسات یا ذهنیت بیان شده در اسناد یا جملات متمرکز بوده است که برای اکثر برنامه های کاربردی در زندگی واقعی کافی نیست. کاربردهای عملی اغلب خواستار تجزیه و تحلیل عمیق و دقیقتری هستند. با توجه به بلوغ این حوزه، این کتاب به شکل ساختاریافته تری نوشته شده است ، به این معنا که اکنون مسئله از نظر ساختاری تعریف شده است و جهت های مختلف تحقیقاتی پیرامون این تعریف متحد می شوند.
1.3 تشخیص عقاید Spam
ویژگی کلیدی رسانه اجتماعی این است که هر کسی را از هر جایی در جهان قادر میسازد تا آزادانه دیدگاهها و نظرات خود را بیان کند و بدون افشای نام واقعی اش و بدون ترس از عواقب نامطلوب، نظرات و عقائد خود را بیان کند. این نظرات بسیار با ارزش هستند. با این حال ، این ناشناسی همچنین دارای قیمتی است. این امکان را به افراد دارای برنامه های مخفی با اهداف مخرب می دهد تا بتوانند به مردم این احساس را بدهند که آنها عضو مستقلی در افکار عمومی هستند و نظرات جعلی را برای ترویج و بیاعتبار کردن محصولات ، خدمات، سازمانها ، یا افراد هدف ، بدون افشای نیت واقعی خود، یا شخص یا سازمانی که به طور مخفیانه برای آن کار میکنند، ارایه دهند. به اینگونه افراد opinion spammersگفته می شود و فعالیت های آنها opinion spamming نام دارد (Jindal and Liu، 2007، 2008).
اسپم سازی نظر ، به یک موضوع مهم تبدیل شده است. به غیر از افرادی که در بررسی ها و بحث در مورد فورم نظرهای جعلی می دهند ، شرکت های تجاری نیز وجود دارند که در زمینه نوشتن نظرات جعلی و وبلاگ های جعلی برای مشتریان خود فعالیت می کنند. چندین مورد از مشاهدات جعلی در اخبار منتشر شده است. شناسایی اسپم مهم است تا اطمینان حاصل شود که عقاید وب یک منبع قابلاعتماد از اطلاعات با ارزش هستند. برخلاف استخراج نظرات مثبت و منفی، تشخیص اسپم تنها یک مسئله NLPنیست زیرا شامل تجزیه و تحلیل رفتارهای posting افراد است. بنابراین یک مساله داده کاوی نیز وجود دارد. فصل ۱۰ درباره روشهای تشخیص وضعیت کنونی بحث خواهد کرد.
1.4 مسائل پیش رو
در این کتاب، ما این موضوع جذاب را بررسی میکنیم. اگرچه کتاب با متن زبان طبیعی سر و کار دارد، که دادههای بدون ساختار خوانده میشوند، لیکن من یک رویکرد ساختاری برای نوشتن این کتاب اتخاذ میکنم. فصل بعدی به طور رسمی این مساله را تعریف خواهم کرد که به ما اجازه میدهد تا ساختاری از این مساله را ببینیم. ما از این تعریف وظایف کلیدی آنالیز احساسی را خواهیم دید. در فصلهای بعدی، تکنیکهای موجود برای انجام وظایف تشریح میشوند. با توجه به تحقیق، مشاوره، و تجربیات شروع، این کتاب نه تنها مفاهیم تحقیق کلیدی را مورد بحث قرار میدهد بلکه به فنآوری از نقطهنظر کاربردی به منظور کمک به افراد حرفهای در این زمینه نگاه میکند. با این حال، من باید عذر خواهی کنم که وقتی در مورد سیستمهای صنعتی صحبت میکنم، نمیتوانم نام شرکتها یا سیستمهای آنها را فاش کنم، تا حدی به خاطر این واقعیت که بازار تحلیل احساسات به سرعت حرکت میکند و شرکتهایی که من میشناسم ممکن است الگوریتم خود را هنگام خواندن این کتاب تغییر داده یا اصلاح کنند. نمیخواهم برای آنها و خودم مشکل ایجاد کنم .
اگرچه من سعی میکنم همه ایدهها و تکنیکهای اصلی را در این کتاب پوشش دهم، اما این کار به یک کار غیر ممکن تبدیل شدهاست. در دهه گذشته، تعداد زیادی از مقالات تحقیقاتی (احتمالا بیش از ۱۰۰۰) در این موضوع منتشر شدهاند. اگرچه اکثر مقالات در کنفرانسها و مجلات NLP منتشر شدهاند، مقالات بسیاری در داده کاوی، وب کاوی، یادگیری ماشین، بازیابی اطلاعات، تجارت الکترونیک، علوم مدیریتی و بسیاری از زمینههای دیگر منتشر شدهاند. بنابراین نوشتن کتابی که ایدهها را در هر مقاله منتشر شده پوشش میدهد تقریباً غیرممکن است. متاسفم که ایدهها یا تکنیکهای خوب شما نادیده گرفته میشوند. با این حال، یک مزیت اصلی انتشار این کتاب در مجموعه کنفرانس سخنرانی Morgan & Claypool این است که نویسندگان همیشه میتوانند مطالب جدید به روز رسانی شده را به این کتاب اضافه کنند، زیرا ویرایش های جدید همیشه مورد تقاضا می باشد. بنابراین اگر شما متوجه شدید که برخی ایدههای مهم مورد بحث جا مانده است ، لطفاً تردید نکنید و به من اطلاع دهید ، بسیار خوشحال میشوم که از آن ها استفاده کنم.
سرانجام ، دانش پیش زمینه در زمینه های زیر در خواندن این کتاب بسیار مفید خواهد بود:
پردازش زبان طبیعی (Indurkhya and Damerau, 2010; Manning and Schutze, 1999) ، یادگیری ماشین (Bishop, 2006; Mitchell, 1997)و بازیابی اطلاعات (Manning et al., 2008).