mitra mirshafiee
mitra mirshafiee
خواندن ۶ دقیقه·۴ سال پیش

پردازش زبان تو بگو، ترامپ یا بایدن؟

از اونجا که یکی از جذابیت های زندگی من ته و توی متون و داده ها رو درآوردن هست، تصمیم گرفتم اینبار ببینم از صحبت های ترامپ و بایدن چی درمیاد؟ اولین باری که مناظره هارو دیدم هم متعجب و هم متحیر شدم! ولی از اونجا که مفسر سیاسی نیستم می دونستم که با تنها نگاه کردن به مناظره مغزم نمیتونه مثل یک ماشین تمام اطلاعات رو به درستی دسته بندی و برای درست کردن یک تصویر بزرگ کنار هم بچینه. برای همین لپ تاپ رو برداشتم و به دنبال متن مناظره اول و دوم گشتم و به این نصیحت همیشگی بزرگان رسیدم:

"کگل، داده های تعداد پر انواع مختلف غو تا انواع پوست آدم در طول دوران های مختلف تاریخ رو داره. "

پس داده هارو برداشتم و افتادم به جونشون.

https://youtu.be/kyuDlnYGGQI

ویدئو بالا یک خلاصه ای از تلاش ها و روند بنده برای بررسی داده به زبون اجنبی هست. اما برای تاکید بیشتر بنده اینجا همه تحلیل ها رو میذارم تا با هم بیشتر از جذابیت تحلیل داده های متن به زبان فارسی لذت ببریم. کد تمام این نمودار هارو هم می تونید در این نوت بوک کگل یا کولب ببینید.

برای راحتتر شدن درک روند کلی همه نمودار هارو به سه بخش تقسیم می کنیم:

بخش 1. بررسی پاراگراف ها

با توجه به شکل کلی داده ها میتونیم ببینیم که هر سطر به یک فرد اختصاص داره و زمان شروع صحبت اون فرد رو در ستون minute و نام اون رو در ستون speaker می تونیم مشاهده کنیم.

نمایی از دیتا فریم
نمایی از دیتا فریم


بعد از تمیز کردن اولیه و پرکردن جاهای خالی، اولین چیزی که می خواستم ببینم تعداد دفعاتی بود که افراد بیشتر از حالت نرمال در یک زمان شروع به صحبت می کنند یا به نوعی در حرف هم می پرند. این لحظات در مناظره اول خیلی دیده میشد که در نهایت منجر به میوت کردن میکروفون یکی از طرفین در زمانی که دیگری درحال حرف زدن هست در مناظره دوم منجر شد.

هیت مپ(Heatmap) مناظره اول
هیت مپ(Heatmap) مناظره اول
هست مپ(Heatmap) مناظره دوم
هست مپ(Heatmap) مناظره دوم

در این نمودارها سه سطر مربوط به سه نفر(ترامپ، بایدن و واسطه یا مصاحبه کننده) و ستون ها نشانگر دقیقه های مناظره هستند. هرچه رنگ ناحیه تیره تر، تعداد دفعاتی که یک فرد شروع به صحبت می کنه هم بیشتر. در مناظره اول، در طول 1 ساعت و 35 دقیقه، حدودا سه ناحیه هست که بیشتر از اطرافش تیره شده. این ها زمان هایی هست که هر کاندیدا تا حداکثر 14 در اون دقیقه حضور داشته. در مناظره دوم تقریبا یک روند مشابه رو داریم ولی اگر درنظر بگیریم که مصاحبه دوم 1 ساعت و 6 دقیقه بوده و درنتیجه نمودار رو فشرده تر کنیم، می بینیم که در مصاحبه دوم دو نفر یکم آروم گرفتند و به شدت اولی آتیش نمی سوزونند. همچنین در نظر داشته باشین که حداکثر جملات استفاده شده در یک دقیقه در مصاحبه دوم 11 بوده پس واقعا پیشرفتشون رو میشه اینجا دید.(یه کف قشنگ برای آقایان ترامپ و بایدن ?)

2. جملات

برای بررسی تعداد جملات استفاده شده و تخمین اینکه چه کسی بیشتر درکل صحبت کرده پاراگراف هارو به جملات تبدیل می کنیم و جداگانه هر کدوم از مناظره ها رو باهم و هر کدوم از مناظره کننده هارو هم باهم مقایسه می کنیم:

همونطور که می بینیم و مقداری هم انتظارش رو داشتیم، مناظره اول طولانی تر و درنتیجه حدود 300 جمله بیشتر داره. در سمت راست اما میبینیم که در هر دو بخش آقا ترامپ ماشالله بیشتر از 40 درصد از کل مناظره رو به خودش اختصاص داده و حتی در بخش دوم دو درصد بیشتر از جملات رو گفته، درحالی که رقیبش بایدن، دقیقا دو درصد کم حرف تر شده.

چون فعلا تو بخش جملات هستیم، گفتم ببینیم آیا میشه تشخیص داده چه کسی بیشتر از همه در حرف بقیه می پره؟ در نمودار پایین می بینیم هر دفعه که یک فرد شروع به صحبت کرده چند جمله گفته. راستای x نشان دهنده تعداد جملات در هر بار صحبت و راستای y نشانگر تعداد دفعات دیده شدن این جملات هست.

با اختلاف 300 جمله ترامپ بیشتر از بایدن شروع به صحبت و فقط از یک جمله صحبت کرده. در اینجا میشه گفت یا فقط داشته کوتاه پاسخ واسطه رو میداده یا اینکه در حرف بایدن می پریده. با توجه به اینکه اون همچنین فردیه که از بیشترین تعداد جملات استفاده کرده (در انتهای سمت راست می بینید که رنگ قرمز دیده میشه)، در نظر بنده احتمال اینکه داشته کوتاه صحبت می کرده کمه.

3. کلمات

بعد از مقداری تمیزکاری در داده ها، 60 کلمه ای که بیشتر از همه توسط دونفر استفاده شدند رو در زیر میبینیم.

همینجا میشه یک مقدار شخصیت دو طرف رو شناخت. ترامپ زمانی که میخواد با رقیبش صحبت کنه در صورتش حرفش رو میگه همونطور که اولین کلمه ای که استفاده می کنه 'You' هست. در سمت دیگه، باید سعی میکنه اهمیتی به اون نده و بیشتر حتی با واسطه مخاطب میشه و بیشتر از همه از 'he' استفاده می کنه.

همچنین ترامپ دو برابر بایدن از کلمه 'I' استفاده می کنه(حدود 10 درصد 60 کلمه برترش رو 'I' تشکیل داده) و درکل دوست داره بیشتر از یک سری کلمات مشخص استفاده کنه همونطور که توزیع صحبتش بیشتر سمت یک سری کلمات هست در مقایسه با بایدن.

☁️ابر کلمات

کلمات رو داریم، عکس هم گیرمیاریم می کنیمشون توهم و یک ابر کلمات میدیم بیرون!

ابر کلمات از آقا ترامپ و آقا بایدن
ابر کلمات از آقا ترامپ و آقا بایدن

تحلیل احساسات

در بخش آخر با استفاده از یک کتابخانه مفید و خیلی بدرد بخورد در پردازش زبان به نام ? Transformers (بله اون ایموجی هم بخشی از اسم کتابخانست) سعی داریم احساسات جملات بیان شده رو به نمایش بکشیم. اول کار بنده از کتابخانه TextBlob و بعد از pipeline خود ? Transformers برای اینکار استفاده کردم، اما نتایج خیلی خوشایند نبود. این طور شد که (دوباره) به سراغ کگل عزیز رفتم و یک مجموعه داده با 5 برچسب پیدا و روی اونها بهترین مدلی که می تونستم رو آموزش دادم(یک RoBERTa) و چون این مجموعه داده به خوبی همه کلمات و اصطلاحات رو در خودش داشت و مدل من هم به خوبی روی داده های تست جواب می داد این مدل رو transfer کردم و روی مناظره ها استفاده کردم.

خوشبختانه نتایج هم دل انگیز تر از هر کتابخانه یا مدل آماده ای بود.

خب می بینیم که در کل مصاحبه اول احساسات منفی بیشتر داشته و با اینکه جملات بیشتری هم درش بوده، اما با در نظر گرفتن سمت راست و احساسات مثبت تر، میشه از نظرمن نتیجه گرفت که افت بیشتر احساسات منفی اتفاقی به خاطر جملات کمتر فقط نیست. همچنین در سمت راست میبینیم که ترامپ درکل در جملاتش احساسات منفی و مثبت بیشتری به کار میبره با این استثنا که فقط یک بار از بایدن در جملات مثبت در مناظره اول عقب افتاده.

صحبت آخر

در این مناظره ها من طرفدار هیچ سمتی نیستم چون دانش سیاسی ام به حدی نیست که فردی رو برتر از دیگری معرفی کنم. اما تنها کاری که از دستم برمیاد یک مقداری تحلیل و بررسی شخصیت هاست با توجه به صحبت هاشون :)

امیدوارم از خوندن این نوشته ذره ای اوقات خوش و لذت رو مثل من تجربه کرده باشین :)


هوش مصنوعیماشین لرنینگکامپیوترانتخاباتپایتون
شاید از این پست‌ها خوشتان بیاید