ویرگول
ورودثبت نام
SoSa
SoSa
خواندن ۹ دقیقه·۳ سال پیش

در رابطه با تشخیص احساسات از روی گفتار (‌بررسی های اولیه و ناکامل!)

با درود و سپاس

امروز در طی صحبت هایی که با یکی از دوستان در مورد موضوع هوش مصنوعی و احساسات داشتیم، برای تشخیص بهتر مودهای احساسی مراجعین درمان های روانپزشکی ، بررسی هایی را در اینرتنت انجام دادیم که بخش هایی از اطلاعات این پروژه را در اینجا قرار دادم.

در این رابطه بخش هایی از این اطلاعات در ویدیوی زیر قابل مشاهده می باشند:

https://www.namasha.com/v/882KwmpF


به صورت کلی، موضوع تشخیص احساسات از روی گفتار در چکیده زیر معرفی شده است:

تشخیص احساس از روی گفتار فارسی با استفاده از ماشین بردار پشتیبان
تشخیص خودکار احساس از روی گفتار مساله بسیار مهم، در عرصه تعامل انسان و ماشین است.قابلیت تشخیص احساس توسط کامپیوتر با دقتی همانند انسان، به منظور ایجاد رابطه طبیعی و دوستانهبین انسان و کامپیوتر، بسیار حائز اهمیت است. با وجود پیشرفتهای گسترده در حوزهً پردازشگفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز اینها، از یکسو و تولید گفتار احساسی مناسب از سوی دیگر، یکی از چالشهای مهم برای ساخت ماشینهای هوشمند محسوب میشود.

همچنین احتمالا شما اطلاعات جالبی در مورد موضوع کلی تشخیص احساسات، مانند موارد زیر در اینجا مشاهده خواهید کرد:

بخشهای جالبی از پست بالا (با کمک مترجم گوگل)، در زیر قابل مشاهده می باشند:


اخیراً در مورد تشخیص احساسات هیاهوی زیادی شده است. بسیاری از افراد در مورد چگونگی عملکرد آن مطمئن نبوده اند ، یا اینکه حتی وجود آن اطمینان ندارند!

تشخیص احساسات لزوماً همه پاسخ ها را به شما نمی دهد.
دروغ سنج؟
در سال های اولیه به عنوان ابزاری ممکن برای کمک به مبارزه با کلاهبرداری ، به ویژه در زمینه ادعاهای بیمه نامه متقلبانه ، تبلیغ می شد ، اما واقعیت این است که این یک ردیاب دروغ جایگزین نیست و هنگام مشاهده دامنه فرکانس صدای انسان ، به طور کلی درک می شود که تلفن الکترونیکی فقط حدود 20 درصد از موارد گفته شده را کنترل می کند.
با این اوصاف ، تعداد قابل توجهی از مشتریان ما هنوز از ما می پرسند "آیا می توانید احساسات را تأمین کنید؟" ، عمدتاً به این دلیل که "زرق و برق دار و هیجان انگیز" تلقی می شود و اغلب هنگام توصیف مفهوم تجزیه و تحلیل گفتار برای اولین بار به صورت توصیفی استفاده می شود. پاسخ مثبت است ، اما ما از آنها می پرسیم که چرا یا چگونه می خواهند از آن استفاده کنند ، و بدون شک ابزار دیگری می تواند همان نتیجه را بدون هزینه تشخیص احساس ارائه دهد.
احساسات مفهومی سیال و نسبتاً لغزنده است
برخی از افراد ، از طریق ناتوانی یا تربیت ، درک و / یا بیان احساس خود را دشوار یا غیرممکن می دانند. به همین ترتیب ، تفسیر احساسات شخص دیگری هنری است تا علمی.
به منظور اجتناب از انتساب دسته بندی های سخت ، بسیاری از محققان ترجیح می دهند از فضایی مداوم مانند آنچه در شکل 1 وجود دارد به جای استفاده از برچسب های مجزا برای توصیف احساسات.
شکل بالا نمایش دو بعدی احساسات ، را نشان می دهد.
مزیت این نمایش این است که می توان مقیاس مداوم از "ملایم تحریک شده" تا "رشته ای با عصبانیت" را به صورت عددی بیان کرد و همچنین سایه های خاکستری را در بین جفت های عاطفی مرتبط به دست آورد.

ما تشخیص احساسات را انجام نمی دهیم!
در عوض ما تجزیه و تحلیل احساسی انجام می دهیم. ما از این دیدگاه شروع می کنیم که هیچ دستگاهی قادر به مغز کاری مغز انسان در هنگام تشخیص احساسات نخواهد بود. بنابراین تلاش برای نوشتن یک نرم افزار برای عملکرد مانند مغز انسان با ایجاد یک نقطه مرجع برای یک احساس خاص و سپس تجزیه و تحلیل تماس ها برای شناسایی چیزی که مشابه است ، راهی برای دستیابی به نتایج مداوم قابل اطمینان نیست.

در شناسایی احساسات ارزش تجاری کمی وجود دارد
تحقیقات نشان داده است که ارزش تجاری کمی در تشخیص احساسات شدید و واضح مانند خشم ، شادی زیاد و غیره وجود دارد. اولاً ، در مقایسه با حجم کلی تماس در یک مرکز تماس ، آنها به ندرت اتفاق می افتند ، و دوم اینکه ، در صورت بروز علت شناخته شده است یا به راحتی قابل شناسایی است ، بنابراین سود در شناسایی آنها به تنهایی کم است.

بهتر است بدنبال کلمات و عبارات خاص بگردید
تشخیص دهها م subلفه ظریف گفتاری که یک احساس را ایجاد می کنند و تجزیه و تحلیل این روابط و تغییر روابط آنها با یکدیگر با پیشرفت تماس بسیار سود بیشتری دارد. به موازات عوامل ایجاد کننده این تغییرات مانند استفاده از کلمات / عبارات خاص ، زمان روز یا مشخصات کارکنان را می توان شناسایی کرد. سپس می توان این موارد را با توجه به نتیجه تماس مورد نظر ارزیابی کرد تا نتایج بهتری با کارآیی بیشتر در آینده حاصل شود.

رویکرد صوتی
روش صوتی به اندازه گیری ویژگی های خاص صدا ، مانند تن صدا ، میزان صدا یا میزان صدا ، شدت ، میزان گفتار متکی است. گفتار یک سخنران متعجب معمولاً سریعتر ، بلندتر و بلندتر است در حالی که صحبت یک سخنران غمگین یا افسرده تمایل دارد که آهسته تر ، نرمتر و پایین تر باشد. یک تماس گیرنده عصبانی ممکن است خیلی سریعتر ، بلندتر صحبت کند و باعث افزایش صدای واکه های تحت فشار شود.
برای ایجاد یک پایگاه داده از احساسات تعریف شده که در نهایت می توان صدای "زنده" را ارزیابی کرد و در نتیجه تجزیه و تحلیل احساسات را ارائه داد ، هر یک از نمونه های احساسی از یک مجموعه ضبط شده "بکر" از قبل انتخاب می شود ، به صورت دستی بازبینی می شود و برای شناسایی احساسات آن حاشیه نویسی می شود نشان می دهد حتی در این محیط بکر کمتر از 60 درصد از تک احساسات ، گفته های بدون سر و صدا را می توان به درستی طبقه بندی کرد.
در دنیای واقعی مرکز تماس از نویز پس زمینه ، تداخل شبکه و مکالمه در پس زمینه رنج می برد - که همگی این درصد را به میزان قابل توجهی فرسایش می دهد. همچنین کیفیت صدا می تواند به طور قابل توجهی بر توانایی شناسایی این ویژگی ها تأثیر بگذارد. روشهای فشرده سازی تشخیص برخی از ویژگیهای متداول بیشتر - مانند لرزش ، لرزش و نبض گلوتال - حتی تخریب بیشتر نتایج حاصل از این شکل از اندازه گیری احساس را بسیار دشوار می کند.

طبقه بندی احساسات ترکیبی دشوار است
این واقعیت افزوده می شود که سخنرانان غالباً احساسات ترکیبی مانند همدلی و دلخوری را بیان می کنند که طبقه بندی آنها بسیار دشوار است. علاوه بر این ، تجزیه و تحلیل احساسات اغلب قادر به تنظیم روش های مختلفی نیست که تماس گیرنده های مختلف احساسات یکسانی را بیان می کنند ، به عنوان مثال ، ممکن است افراد از شمال شرقی یا اسکاتلند ناخوشایند باشند در حالی که تماس گیرندگان از جنوب غربی تمایل به ادب بیشتری دارند حتی در صورت عدم رضایت. این محدودیت ها عدم ماندگاری آن به عنوان ابزاری برای تجزیه و تحلیل تجارت را برجسته میکند.

چرا همه ادعا می کنند که تشخیص احساسات را انجام می دهند؟
به نظر می رسد که تشخیص احساس به عنوان یک عنصر اصلی یا تمایز دهنده راه حل های تحلیلی گفتار تلقی می شود و به همین دلیل یک بار برای من توصیف شد: "خوب همه می گویند می توانند این کار را انجام دهند ، بنابراین باید بگوییم که می توانیم این کار را انجام دهیم حتی اگر هیچ یک از ما واقعاً می تواند ".
من مطمئن هستم که یک VP از بازاریابی در جایی منطقی است. از نظر من ، و من همیشه مایل به اصلاح هستم ، هر چیزی که ادعا می کند می تواند احساسات را در هر راه حل فعلی موجود تشخیص دهد ، باید احساسات را به صورت بسیار ساده تعریف کند.
یکی از دلایل این امر باید در تعریف احساسات خود نهفته باشد. آیا ما به دنبال "احساس" (آنچه شما احساس می کنید) یا "ابراز احساسات" (که همان چیزی است که برای دیگران نشان داده می شود) هستیم؟ ما می دانیم که بین احساس اصلی و ابراز احساسات روابط کاملاً پیچیده ای وجود دارد که تغییرات ناشی از عواملی مانند فرهنگ است (فرهنگ های مختلف "قوانین نمایش" مختلفی دارند) ، موقعیت ها (نشان دادن برخی احساسات در بعضی شرایط درست است ، نه در دیگران) ، اختلاف در وضعیت (شخص دیگر) و در فرد.
درمجموع ، ما می دانیم که در رابطه بین احساسات و احساسات نمایش داده شده می توان تنوع فوق العاده ای داشت ، در حالی که آشکارا تشخیص خودکار به امکان نوشتن مجموعه ای از قوانین بی تغییر بستگی دارد.

افراد احساسات را به طرق مختلف نشان می دهند
به همین ترتیب ، یک مشکل دیگر در تشخیص احساسات این است که هیچ دو نفری آنها را کاملاً یکسان نشان نمی دهد. وقتی عصبانی می شوم ، ممکن است فریاد بزنم ، وقتی عصبانی می شوی ، ممکن است ساکت بشی. اما دوباره ، وقتی خوشحال شدم ممکن است فریاد هم بزنم پس این به ما چه می گوید؟ خیلی زیاد نیست

یک بخش از تجزیه و تحلیل دستی که ما برای مشتری انجام می دهیم ، از رأی دهندگان ما ، انسانهای واقعی ، می خواهد که در مورد سایر موارد در مورد روحیه مشتری قضاوت کنند و انجام هر کاری با اطمینان بسیار کار مهارتی است. قضاوت در مورد روحیه شخصی و به ثمر رساندن آن در مقیاس 4- تا 4+ مهارتی است که یادگیری آن به مدتی زمان نیاز دارد و در مورد نمره "درست" ، اگر واقعا وجود دارد ، اختلاف نظر وجود دارد.
به نظر من ، تشخیص احساسات یک راه حل برای مشکلی بود که هیچ کس نداشت و توسط شخصی به عنوان "ویژگی قاتل" در خواب دیده است. با کمال تعجب ، می توان مشکلات را شناسایی کرد و از طریق درک کلمات و عباراتی که مشتریان هنگام تلاقی یا خوشحالی استفاده می کنند ، مشتریان متقابل یا شادی را تشخیص داد.

یک بار دیگر ، شما نباید بیش از آنچه را که وجود ندارد وعده دهید ، پس چرا فروشندگان همچنان به کار خود ادامه می دهند؟


برای شروع و اجرای کدهای اینکار در دنیای امروز شما می توانید با جستجوی پست ها و مقالات فارسی مانند نمونه های زیر، نگاه وسیعتری از صورت مسئله تشخیص احساسات در گفتار پیدا کنید:

هوش مصنوعی که احساس شفقت و همدلی با انسان دارد!!
تشخیص احساسات در متن با استفاده از تکنیک‌های هوش مصنوعی ( مقاله )
تشخیص احساسات گفتار با استفاده از انتخاب ویژگی بر اساس مدل های بازگشتی ( مقاله )
تشخیص حس وابسته به گویندة گفتار فارسی با استفاده از ویژگی‌های آکوستیکی ( مقاله )

در ادامه برای اجرای کدهای هوش مصنوعی این پروژه می توانید با جستجوی تگ هایی مشابه موارد زیر پروژه های مشابهی را در اینترنت پیدا کنید:

  • جستجو در گوگل:
emotion detection from the voice
Emotion recognition by speech in android.
  • جستجو در سایت kaggle:
The emotion detection from the voice via kaggle site

جستجو در سایت Google Colab:

The emotion detection from the voice via Google Colab site

جستجو در سایت paperswithcode :

Speech Emotion Recognition on the paperswithcode site for finding the Academic papers and their codes


جستجو در سایت GitHub:

speech emotion recognition Project on GitHub


سپس با اجرای کدهای بدست آمده مانند پروژه های زیر، کدهای آماده انجام این کار را اجرا نمایید:

MevonAI - Speech Emotion Recognition

قابل تست در اینجا.

Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation


قابل تست در اینجا.

تشخیص حالت گفتاری چند حالته با استفاده از متن و صدا (Multimodal Speech Emotion Recognition Using Audio and Text)

قابل تست در اینجا.

Audio and text based emotion recognition

قابل تست در اینجا.

و چند پروژه جالب دیگر مانند موارد زیر نمونه هایی از پروژه های آماده برای اینکار را تست نمایید:

Offline Speech Recognition With PocketSphinx

Emotion recognition by speech in android.

قابل تست در اینجا.

A emotion recognition demo application using vokaturiApi

Аудио Сканер Эмоций (Mood Scanner )

این پست، احتمالا در آینده بروزرسانی می گردد.


با تشکر

تشخیص احساساتگفتارهوش مصنوعی
یکی از آدمهای شهر، با کنجکاوی ها، پیچیدگی ها و قصه ی مخصوص به خودش.
شاید از این پست‌ها خوشتان بیاید