ابرِ کلمات (Word Cloud) در زبان فارسی

ابر کلمات
ابر کلمات

برای تشکیل ابر کلمات از روی متن های فارسی در زبان پایتون و روی ویندوز می توانید به صورت زیر عمل کنید:

کتابخانه های زیر را فراخوانی کنید:

from os import path
from persian_wordcloud.wordcloud import PersianWordCloud, add_stop_words
import ntpath

در مورد چگونگی نصب کتابخانه ها در پایتون اینجا رو ببینید.

حالا نوبت به معرفی مسیر فایل حاوی متن فارسی می رسد:

d = path.dirname('C:\\...\\....\\Desktop\\')

فایل مورد نظر با عنوان persian.txt ذخیره شده است:

text = open(ntpath.join(d, 'persian.txt'), encoding='utf-8').read()

حالا نوبت معرفی ایست واژگان هست (ایست واژه به حروف اضافه ای گفته می شود که مفهومی را منتقل نمی کند. در زبان پارسی عبارتی مثل: از، به، که، اگر و... ایست واژه محسوب می شوند.):

stopwords = add_stop_words(['کاسپین'])

دستور بعدی هم مربوط به تنظیمات نمایش خروجی است. همین جا می توان اندازه فونت ها و رنگ پس زمینه را تغییر داد:

wordcloud = PersianWordCloud(
    only_persian=True,
    max_words=100,
    stopwords=stopwords,
    margin=0,
    width=800,
    height=800,
    min_font_size=1,
    max_font_size=500,
    background_color="black"
).generate(text)

دستورات بعدی هم مربوط به نمایش و ذخیره تصویر خروجی است:

image = wordcloud.to_image()
image.show()
image.save('C:\\...\\....\\Desktop\\result.png')
خروجی ابر کلمات
خروجی ابر کلمات

همانطور که مشخص است در شکل بالا ایست واژگانی مانند می، فرا، تر و... تکرار شده است که به کمک پیش پردازش متن و سایر تکنیک های موجود قابل حذف هستند.