تحلیل محتوای اینستاگرام با استفاده از ابر کلمات

چند روز پیش توی قرنطینه حوصله‌م سر رفته بود و به سرم زد کدی بنویسم که باهاش بتونم تحلیل محتوای کمی انجام بدم. از اونجایی که من علاقه‌ی زیادی به کلمات دارم، تصمیم گرفتم کپشن‌های اینستاگرام کاربرهای مختلف رو تحلیل کنم. برام جالب بود بدونم هر کاربری بیشتر از چه کلماتی توی متن‌هاش استفاده می‌کنه.

یکم توی اینترنت گشتم و متوجه شدم یک برنامه‌نویس چینی دو سال پیش کدی با پایتان نوشته که این کار رو انجام می‌ده اما بعد از این که کدش رو تست کردم متوجه شدم API اینستاگرام توی این مدت خیلی تغییر کرده و دیگه کار نمی‌کنه. با همکاری برادرم روی کد کار کردیم و یک دستی به سر و روش کشیدم تا با تغییرات جدید اینستاگرام سازگار بشه. در واقع این اسکریپت، تمام کپشن‌های اینستاگرام یک کاربر رو می‌خونه و فراوانی کلمات رو حساب می‌کنه. بعد با استفاده از ابر کلمات این فراوانی رو به ما نشون می‌شده.

وقتی کد درست شد متوجه شدیم زبان فارسی رو پشتیبانی نمی‌کنه. با یک سرچ مختصر متوجه شدم باید از لایبرری فارسیزه‌ شده‌ی wordcloud استفاده کنم که قبلن برنامه‌نویس‌های ایرانی زحمت‌ش رو کشیده بودن. بعد از اجرا کردن اسکریپت روی اکانت خودم و دیدن نتیجه‌ی کار حسابی ذوق‌زده شدم:

ابر کلمات اکانت خودم
ابر کلمات اکانت خودم

نتیجه رو روی اینستاگرامم به اشتراک گذاشتم و روی اکانت چندتا اینفلوئنسر هم امتحان کردم. بازخورد خیلی خوبی گرفتم و در کمتر از ۲۴ ساعت حدود ۵۰۰ نفر ازم خواستن ابر کلمات اکانت‌هاشون رو تولید کنم. متاسفانه چون زمان این کار رو نداشتم تصمیم گرفتم کدش رو روی گیت‌لب به اشتراک بذارم تا همه بتونن استفاده کنن. این کد هنوز جای کار داره. باید استاپ‌وردهای بیشتری به‌ش اضافه بشه. جدا از اون خیلی از کاربرها از کیبورد عربی برای تایپ‌کردن استفاده می‌کنن و نیم‌فاصله رو هم رعایت نمی‌کنن. همین موجب می‌شه گاهی خروجی برنامه اونطوری که دل‌مون می‌خواد نشه. این‌ها رو گفتم تا اگر برنامه‌نویسی این پست رو دید و دل‌ش خواست روی کد کار کنه از باگ‌ها مطلع باشه. کد رو امتحان کنید و نظرتون رو بگید. درضمن، مرج ریکوئست‌های(merge request) شما را پذیراییم.

این هم آدرس رپو در گیت‌لب:

https://gitlab.com/fussyv/instawordcloud