سرویسهای متنکاوی و پردازش متن فارسییار
مقدمهای بر نظرکاوی (تحلیل حس) و کاربردهای آن
نظر کاوی (Opinion Mining) یکی از جدیدترین حوزههای پژوهشی در پردازش زبان طبیعی (Natural Language Processing)، بازیابی اطلاعات (Information Retrieval) و متن کاوی (Text Mining)، است. بطور کلی اطلاعات متنی را میتوان به دو دسته واقعیات (Facts) یا همان اطلاعات عینی (Objective) یا مشخص و نظرات یاهمان اطلاعات ذهنی (Subjective) یا حسی (Sentiment) تقسیمبندی نمود. حقایق اطلاعات صریح و مشخصی را در رابطه با یک موجودیت یا رویداد و ویژگیهای آنها بیان میکند. درحالیکه نظرات معمولاً غیرشفاف و بصورت ضمنی، ذهنی، حسی، یا ارزیابی سلیقهای (Appraisal)، گرایش (Attitude)، یا تجربه و دیدگاه یک شخص را درباره یک شیء یا رویداد، مشخص مینمایند.
بیشتر پژوهشهای انجام شده در حوزه پردازش اطلاعات متنی، برروی کاوش و استخراج اطلاعات حقایق، مانند بازیابی اطلاعات، تمرکز دارند. این در حالی است که در فرایند تصمیمگیری (توسط مشتریان یا مدیران سازمانها) نیاز به اطلاع از نظرات دیگران احساس میشود.
یکی از دلایل اصلی کم توجهی به بحث نظر کاوی، کمبود منابع متنی از نظرات، قبل از گسترش وب بوده است (به خصوص با پیدایش وب 2.0 حجم نظرات کاربران بسرعت افزایش یافت). قبل از پیدایش وب، برای اطلاع از نظرات از روشهای پرسشنامه یا نظرخواهی شفاهی از نزدیکان و دوستان استفاده میشد. در سالهای اخیر با رشد محتوای تولید شده توسط کاربران (User-generated content) برروی بخش نظرسنجی در فروشگاههای الکترونیک یا سایتهای خبری، فرومها (forums)، گروههای مباحثهای (Discussion groups)، شبکههای اجتماعی (Social Networks) و وبلاگها، حجم انبوهی از نظرات متنی تولید شده است. با وجود افرایش سریع حجم متون مربوط به نظرات افراد و ایجاد منابع نظرسنجی مختلف و نظرات مغایر درباره یک موجودیت (موضوع)، فرایند استخراج و پردازش نظرات از میان منابع معتبر را بسیار دشوار ساخته است. بنابراین، هدف اصلی نظر کاوی استخراج، دستهبندی و خلاصهسازی خودکار نظرات و دیدگاههای افراد درباره ویژگیهای مختلف یک موجودیت یا رویداد خاص، از میان منابع متنی معتبر، میباشد. در صنعت (کاربردهای تجاری) و همچنین بعضی از مقالات علمی به جای نظرکاوی، از اصطلاح تحلیل احساسات (Sentiment Analysis) استفاده شده است.
مفهوم نظر و دیدگاه بسیار وسیع است و طیف وسیعی از کارهای پژوهشی انجام گرفته در این حوزه، تنها محدود به استخراج حس مثبت یا منفی افراد، از روی اطلاعات متنی میشوند. هر نظر از سه بخش اصلی: 1- نظردهنده، 2- موجودیت یا مسالهای که نسبت به آن نظر بیان شده است و 3- نظر یا حس بیان شده تشکیل شده است. شخص نظردهنده و زمان اظهار نظر در بعضی از کاربردهای نظرکاوی بسیار حائز اهمیت هستند. موجودیت مورد نظرسنجی ممکن است از بخشهای (اجزای) مختلفی تشکیل شده باشد و یا دارای ویژگیهای مختلفی باشد که معمولاً نظردهنده تنها به بخشی از آنها اشاره مینماید. البته ممکن است نظردهنده با اشاره به مفاهیم مرتبط با شیء اصلی یا بعضی از ویژگیهای ضمنی آن موجودیت، منظور خود را بخواهد بیان کند؛ که این مساله کار شناسایی موجودیت مورد نظر را دشوارتر میکند. برای مثال در جملات "نوکیا گل کاشت؛ کیفیت دوربین این گوشی بسیار خوب است" و "عکسهای گرفته شده با این موبایل معرکه است" و "تصاویر گرفته شده با این نوکیا واقعاً زنده است"؛ سه عبارت "دوربین خوب" و "عکس معرکه" و "تصویر زنده" به یک ويژگی مثبت خاص از گوشی موبایل نوکیا اشاره میکنند.
همچنین، نظر بیان شده نیز میتواند ضمنی یا صریح باشد. بیشتر کارهای انجام شده در زمینه شناسایی حس نظرات صریح هستند. شناسایی نظرات ضمنی مبحث پیچیدهای است که نیاز به مجموعه اصطلاحات حسی و همچنین تحلیل عمقی حس بیان شده در ضرب المثلها و کنایههای رایج زبان مقصد، قوانین زبانشناسی و درک دامنه و زمینه مورد نظر دارد.
بحث مهم دیگری که در زمینه تشخیص حس مطرح شده است، شناسایی و تحلیل منفی کنندهها و یا نقیض کنندههای معنایی جملات هستند. مانند جمله "تصاویر گرفته شده با دوربین این گوشی کاملاً غیر واقعی است" که منفیکننده "غیر" معنی "تصاویر واقعی" را برعکس میکند و یا در جمله "بغیر از آنتندهی مشکل دیگر ندارد" دو منفی کننده "بغیر از" و "ندارد" یکدیگر را خنثی میکنند و جمله به "آنتندهی مشکل دارد" تبدیل میشود.
بطور کلی، وابستگی حس برخی کلمات به دامنه (موضوع)، ضربالمثلها و اصطلاحات در زمینهها و فرهنگهای مختلف، کنایههای جدید وارد شده در حوزهها مختلف زبان، نظرات غیر مستقیم، دیدگاهها (زاویه دید) متفاوت، نوشتار محاورهای و غیر رسمی، جملات شرطی و مبهم، وابستگی معنی به زمینه و موضوع نظرسنجی، جملات بیمعنی، هرز، و یا موضوع مجهول و جملات مقایسهای از مهمترین چالشهای تشخیص حس در متن نظرات هستند. علاوه بر آن، کلمات حسی نیز میتوانند در نقش صفت (مانند "دوربین باکفیتی دارد")، قید (دوربین آن بخوبی کار میکند)، اسم (مانند "دوربین آن معرکه است" یا "دوربین آن باعث ناامیدی است") و یا فعل (مانند "دوربین آنرا دوست دارم") باشند. در اغلب کارهای انجام شده در حوزه نظرکاوی، بیشتر برروی صفات و قیدها تمرکز شده است. بصورت کلی هر عبارت یا جمله را، از نظر حسی، میتوان به سه دسته 1- حس مثبت 2- حس منفی 3- بدون نظر (حقیقت) تقسیمبندی نمود که در بیشتر تحقیقات انجام شده از دسته سوم صرف نظر شده است.
اهمیت و ضرورت نظر کاوی
اعتقادات و درک ما از واقعیات و تصمیمگیریهای ما تا حد قابل توجهی وابسته به طرز تفکر و دیدگاههای سایر افراد است. اغلب افراد در فرایند تصمیمگیری (بخصوص تصمیمگیری درباره پدیدههای ناشناخته و جدید) نیاز به دانستن نظرات دیگر افرادی که با آن پدیده آشنایی دارند یا قبلاً آن پدیده را تجربه کردند، دارند. این موضوع برای مشتریان ساده تا مدیران سطح بالای صنایع (که نیاز به درک دیدگاه مشتریان درباره خود و شرکتهای رقیب دارند) و سازمانهای مختلف صادق است.
تا کنون بسیاری از کارهای انجام شده در حوزه نظرکاوی درباره بازار و محصولات تجاری از دیدگاه مشتریان، جهت انتخاب و خرید کالا، یا عرضهکنندگان برای بهبود کسب و کار، رقابت در بازار، قراردهی تبلیغات موثر (Ads placements)، محکزنی (Bench-marking) و شناخت سلیقه و علایق کاربران، بوده است. همچنین کاربردهایی در زمینههای پزشکی، علوم اجتماعی، مدیریت و سیاست نیز دیده میشوند. البته کار بر روی این زمینه تحقیقاتی بسرعت ادامه دارد و میتوان کاربردهای جدیدی برای نظر کاوی در مسائل مختلف برای تعاملات بهتر و مسائل تصمیمگیری کاربران یا مدیران تعریف نمود. تقریباً از اوایل سال 2002، همزمان با رشد منابع موجود در اینترنت، فعالیتهای پژوهشی در زمینه استخراج خودکار نظرات و احساسات افراد آغاز شده و در بسیاری از جنبهها بصورت کاربردی در آمده است. بطوریکه تا سال 2012، حدود 60 شرکت در ایالات متحده آمریکا از پژوهشهای نظرکاوی حمایت نموده و بهره میبردند.
بیشترین موارد کاربرد نظرکاوی برای تحلیل نظرات مشتریان درباره محصولات تجاری در فروشگاههای اینترنتی و شبکههای اجتماعی و نظرات کاربران در سایتهای خبری و سایتهای اقتصادی و بورس میباشد. نمونههای سرویسهای تحلیل حس ارائه شده دانشگاهی و تجاری در جدول زیر ذکر شده است.
تعداد مقالات منتشر شده با موضوع تحلیل احساسات در طی سالهای اخیر (بوسیله موتور جستجوی google scholar استخراج شده) در شکل زیر نمایش داده شده است. همانطور که در این شکل مشاهده میکنید، تعداد مقالات علمی نظرکاوی در سالهای اخیر رشد چشمگیری دارد. همانطور که اشاره شد، از سال 2002 تاکنون و همزمان با رشد منابع موجود در اینترنت، این زمینه تحقیقاتی بسیار گسترده شده و در بسیاری از جنبهها بصورت کاربردی در آمده است.
استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسییار)، بلامانع است.
مطلبی دیگر از این انتشارات
مفهوم و فرآیند متن کاوی و ارتباط آن با پردازش زبان طبیعی
مطلبی دیگر از این انتشارات
معرفی پیکره ویکیپدیا فارسی برای متن کاوی (بصورت اطلاعات تفکیک و پیشپردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)
مطلبی دیگر از این انتشارات
کنفرانسها و همایشهای معتبر در زمینه متن کاوی و پردازش زبان طبیعی