علاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/
ابرِ کلمات (Word Cloud) در زبان فارسی
برای تشکیل ابر کلمات از روی متن های فارسی در زبان پایتون و روی ویندوز می توانید به صورت زیر عمل کنید:
کتابخانه های زیر را فراخوانی کنید:
from os import path
from persian_wordcloud.wordcloud import PersianWordCloud, add_stop_words
import ntpath
در مورد چگونگی نصب کتابخانه ها در پایتون اینجا رو ببینید.
حالا نوبت به معرفی مسیر فایل حاوی متن فارسی می رسد:
d = path.dirname('C:\\...\\....\\Desktop\\')
فایل مورد نظر با عنوان persian.txt ذخیره شده است:
text = open(ntpath.join(d, 'persian.txt'), encoding='utf-8').read()
حالا نوبت معرفی ایست واژگان هست (ایست واژه به حروف اضافه ای گفته می شود که مفهومی را منتقل نمی کند. در زبان پارسی عبارتی مثل: از، به، که، اگر و... ایست واژه محسوب می شوند.):
stopwords = add_stop_words(['کاسپین'])
دستور بعدی هم مربوط به تنظیمات نمایش خروجی است. همین جا می توان اندازه فونت ها و رنگ پس زمینه را تغییر داد:
wordcloud = PersianWordCloud(
only_persian=True,
max_words=100,
stopwords=stopwords,
margin=0,
width=800,
height=800,
min_font_size=1,
max_font_size=500,
background_color="black"
).generate(text)
دستورات بعدی هم مربوط به نمایش و ذخیره تصویر خروجی است:
image = wordcloud.to_image()
image.show()
image.save('C:\\...\\....\\Desktop\\result.png')
همانطور که مشخص است در شکل بالا ایست واژگانی مانند می، فرا، تر و... تکرار شده است که به کمک پیش پردازش متن و سایر تکنیک های موجود قابل حذف هستند.
مطلبی دیگر از این انتشارات
هوش مصنوعی: دشمن عزیز!
مطلبی دیگر از این انتشارات
معرفی چند مجموعه داده برای داده کاوی
مطلبی دیگر از این انتشارات
تنسورفلو ۱۲ : RNN