textmining
textmining
خواندن ۱۰ دقیقه·۶ سال پیش

معرفی بهترین کتابخانه‌های پردازش متن - بخش دوم (TextBlob, Pattern, StanfordNLP)

در مقاله قبل به مقایسه ویژگی‌های کتابخانه‌ها و ابزارهای پردازش زبان طبیعی اشاره شد. سپس سه کتابخانه NLTK, SpaCy و CoreNLP معرفی و نمونه کد آن قرار داده شد. دیگر بخش‌های این مقاله:

در جدول زیر بطور خلاصه لیست کتابخانه‌ها و جعبه ابزارهای معروف و رایگان پردازش متن، ویژگی‌های مهم آنها و ابزارهای پیاده‌سازی شده در هریک را گردآوری کردیم.

مقایسه ویژگی‌ها و امکانات کتابخانه‌های (جعبه ابزار) محبوب و رایگان پردازش زبان طبیعی تا سال 2019
مقایسه ویژگی‌ها و امکانات کتابخانه‌های (جعبه ابزار) محبوب و رایگان پردازش زبان طبیعی تا سال 2019
ذکر چند نکته درباره این جدول را لازم می‌دانیم. ستون دوم سال تولید و سالی که آخرین نسخه ابزار (بروزرسانی) در آن ارائه شده است را نشان می‌دهد. در ستون ششم، تعداد ستاره‌ی داده شده به پروژه مربوط به هر کتابخانه‌ در گیت‌هاب (یا پرستاره‌ترین پروژه مرتبط با آنها) را به عنوان سنجه میزان محبوبیت درنظر گرفتیم. همچنین از شاخص تعداد سوالات پرسیده شده در StackoverFlow (درباره هر کتابخانه)، به عنوان مبنای میزان استفاده و جامعه بهره‌بردار آن کتابخانه استفاده شده است. ستون هفدهم به پشتیبانی از زبان فارسی هر کتابخانه (همه یا بعضی از ابزارهای آن) اختصاص داده شده است. این اطلاعات و ارقام در تاریخ 15 اسفند 97 جمع‌آوری شدند.

در این بخش به معرفی چند جعبه ابزار پردازش متن محبوب و کاربردی دیگر می‌پردازیم.

کتابخانه TextBlob

کتابخانه TextBlob، یکی از ابزارهای بسیار کامل و راحت برای پردازش داده‌های متنی در زبان پایتون است. این کتابخانه شامل ابزارهای مختلف پردازش زبان طبیعی از قبیل: استخراج عبارات اسمی، بن‌واژه‌یابی، برچسب‌زنی نقش ادت سخن، پارسر (تجزیه‌گر) جملات، تحلیل احساسات، دسته‌بندی (نایوبیز و درخت تصمیم)، ترجمه (بوسیله مترجم گوگل)، تصحیح اشتباهات املایی، اتصال به وردنت است.

نصب و راه‌اندازی:

pip install -U textblob python -m textblob.download_corpora

نمونه کد استفاده از امکانات مختلف این کتابخانه:

from textblob import TextBlob text = '''TextBlob is a Python (2 and 3) library for processing textual data. It provides a consistent API for diving into common natural language processing (NLP) tasks such as part-of-speech tagging, noun phrase extraction, sentiment analysis, and more.''' blob = TextBlob(text) print(blob.tags) print(blob.noun_phrases) for sentence in blob.sentences: print(sentence.sentiment.polarity) blob.translate(to="fa")

خروجی:

[('TextBlob', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('Python', 'NNP'), ('2', 'CD'), ('and', 'CC'), ('3', 'CD'), ('library', 'NN'), ('for', 'IN'), ('processing', 'VBG'), ('textual', 'JJ'), ('data', 'NNS'), ('It', 'PRP'), ('provides', 'VBZ'), ('a', 'DT'), ('consistent', 'JJ'), ('API', 'NNP'), ('for', 'IN'), ('diving', 'VBG'), ('into', 'IN'), ('common', 'JJ'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('NLP', 'NNP'), ('tasks', 'NNS'), ('such', 'JJ'), ('as', 'IN'), ('part-of-speech', 'JJ'), ('tagging', 'NN'), ('noun', 'JJ'), ('phrase', 'NN'), ('extraction', 'NN'), ('sentiment', 'NN'), ('analysis', 'NN'), ('and', 'CC'), ('more', 'JJR')]
['textblob', 'python', 'processing textual data', 'api', 'common natural language processing', 'nlp', 'noun phrase extraction', 'sentiment analysis']
0.0 0.11000000000000001
TextBlob یک کتابخانه پایتون (2 و 3) برای پردازش داده های متنی است. این یک API سازگار برای غواصی را به وظایف پردازش زبان مشترک طبیعی (NLP) مانند تگ های بخشی از گفتار، عبارات استخراج کلمات، تحلیل احساسات و موارد دیگر فراهم می کند.

کتابخانه Pattern

کتابخانه Pattern، یک مجموعه ماژول مناسب برای وب کاوی (Web Mining) با زبان پایتون ارائه داده است. این کتابخانه شامل API برای دریافت اطلاعات و استفاده از موتور جستجوی گوگل و مایکروسافت بینگ، مترجم گوگل، تویئتر، فیس‌بوک و ویکی‌پدیا است. همچنین مجهز به یک خزشگر وب (کرولر و پارسر قالب HTML) برای جمع‌آوری داده از سایر سایت‌هاست. ماژول پردازش زبان طبیعی این کتابخانه عملیات اصلی پردازش متن از قبیل: POS Tagger، n-gram search، تحلیل حس و اتصال به وردنت را داراست. ماژول سوم آن بخش یادگیری ماشین است که مدل بردار کلمات، خوشه‌بندی و دسته‌بندی SVM را شامل می‌شود. علاوه بر اینها، این کتابخانه ماژولی برای تحلیل گراف (شبکه) و مجسم‌سازی (visualization) نیز دارد.

توجه داشته باشید که برای کار با API تویئتر و ... در ایران، باید از فیلترشکن استفاده کنید :)

نصب و راه‌اندازی:

pip install pattern

نمونه کد برای دریافت پیکره (مجموعه داده متنی) و استفاده از APIهای گوگل، تویئتر و کرولر:

from pattern.web import URL, DOM, plaintext, Twitter, Google url = URL("https://text-mining.ir") dom = DOM(url.download(cached=True, unicode=True)) print(plaintext(dom.head.by_tag("title")[0])) twitter = Twitter(language='en') for tweet in twitter.search('#win OR #fail', start=1, count=3): print(tweet.text) g = Google(license=None) # Enter your license key. q = "Persian language needs your online help." # en print(plaintext(g.translate(q, input="en", output="fa"))) # ar, de, es, fr, sv, ja, ...

خروجی:

سامانه متن کاوی : ارائه دهنده سرویس‌های متن‌کاوی و پردازش متن فارسی همراه با API رایگان
RT @Cruise_118: RT & Follow this post before the weekend for a chance to #win these @MyRoyalUK goodies! UK only. #WinItWednesday #Competition https://t.co/5dSyXVveqz RT @dkbooks: RT & follow by 5PM for your chance to #win 1 of 3 copies of @The_RHS Propagating Plants, publishing tomorrow! It's packed with hundreds of step-by-step tutorials and ideal for thrifty #gardening this Spring ? #WinItWednesday #competition #giveaway https://t.co/lP74RJzXap RT @lipsticktv: #Competition Just FOLLOW US & RETWEET? https://t.co/QDwFJPFOBD to enter! #win this fab(sold out!) #DollBeauty Eye palette/pigments ?All our #giveaways are International! Ends 10th March ???? https://t.co/GU7eskh5V1
زبان فارسی نیاز به کمک آنلاین شما دارد.

نمونه کد ابزارهای پایه پردازش زبان طبیعی:

from pattern.en import parse, pprint, tag s = "I eat pizza with a fork." s = parse(s, tokenize = True, # Tokenize the input, i.e. split punctuation from words. tags = True, # Find part-of-speech tags. chunks = True, # Find chunk tags, e.g. "the black cat" = NP = noun phrase. relations = True, # Find relations between chunks. lemmata = True, # Find word lemmata. light = False) # The output is a string with each sentence on a new line. # Words in a sentence have been annotated with tags, # for example: fork/NN/I-NP/I-PNP (NN = noun, NP = part of a noun phrase, PNP = part of a prepositional phrase.) print(s) # Prettier output can be obtained with the pprint() command: pprint(s)

خروجی شبه کد فوق:

I/PRP/B-NP/O/NP-SBJ-1/i eat/VBP/B-VP/O/VP-1/eat pizza/NN/B-NP/O/NP-OBJ-1/pizza with/IN/B-PP/B-PNP/O/with a/DT/B-NP/I-PNP/O/a fork/NN/I-NP/I-PNP/O/fork ././O/O/O/. ... WORD TAG CHUNK ROLE ID PNP LEMMA I PRP NP SBJ 1 - i eat VBP VP - 1 - eat pizza NN NP OBJ 1 - pizza with IN PP - - PNP with a DT NP - - PNP a fork NN NP ^ - - PNP fork . . - - - - .

نمونه کد تحلیل حس:

from pattern.en import sentiment, polarity, subjectivity, positive # The polarity() function measures positive vs. negative, as a number between -1.0 and +1.0. # The subjectivity() function measures objective vs. subjective, as a number between 0.0 and 1.0. # The sentiment() function returns an averaged (polarity, subjectivity)-tuple for a given string. for word in ("amazing", "horrible", "public"): print(word, sentiment(word)) print(sentiment("The movie attempts to be surreal by incorporating time travel and various time paradoxes," "but it's presented in such a ridiculous way it's seriously boring."))

خروجی به شکل (نوع حس [-1,+1]، میزان حس بکاررفته[0-1]) :

amazing (0.6000000000000001, 0.9) horrible (-1.0, 1.0) public (0.0, 0.06666666666666667) ... (-0.21666666666666665, 0.8)

کتابخانه StanfordNLP

کتابخانه StanfordNLP، یکی از جدیدترین کتابخانه‌های پردازش متن چندزبانه است که در سال 2018 ایجاد گردید. نکته قابل توجه و مهم این کتابخانه پشتیبانی بیش از 53 زبان با استفاده از آموزش مدل‌های یادگیری عمیق بوسیله Pytorch و با پیکره‌های آماده شده به فرمت استاندارد CoNLL است. خوشبخانه مدل‌های یادگیری عمیق ابزارهای مختلف این کتابخانه، براساس پیکره خانم دکتر سراجی، برای زبان فارسی نیز آموزش داده شده و در زبان فارسی نیز قابل استفاده هستند. تصمیم جالب دانشگاه استنفورد این بود که برخلاف کتابخانه Stanford CoreNLP که با زبان جاوا نوشته شده بود، این کتابخانه کلاً با زبان محبوب پایتون نوشته شده است.

نصب و راه‌اندازی:

pip install stanfordnlp

نمونه کد و خروجی ابزارهای مختلف این کتابخانه برای زبان فارسی:

# -*- coding: utf-8 -*- import stanfordnlp MODELS_DIR = r'E:\Data' # stanfordnlp.download('fa', MODELS_DIR, False) # This downloads the Persian models for the neural pipeline (used only for the first time) nlp = stanfordnlp.Pipeline(lang="fa", models_dir=MODELS_DIR, treebank='fa_seraji', use_gpu=False) # This sets up a default neural pipeline in Persian doc = nlp(u"احمد و بردارش با هم به مدرسه شهید اسماعیل‌زاده در جنوب تهران می رفتند.") print(*[f'text: {word.text+" "}\tlemma: {word.lemma}\tupos: {word.upos}\txpos: {word.xpos}' for sent in doc.sentences for word in sent.words], sep='\n') print("----------------------------------------------") doc.sentences[0].print_dependencies()

خروجی نمونه کد فوق:

text: احمد lemma: احمد upos: NOUN xpos: N_SING text: و lemma: و upos: CCONJ xpos: CON text: بردار lemma: بردار upos: NOUN xpos: N_SING text: ش lemma: او upos: PRON xpos: PRO text: با lemma: با upos: ADP xpos: P text: هم lemma: هم upos: PRON xpos: PRO text: به lemma: به upos: ADP xpos: P text: مدرسه lemma: مدرسه upos: NOUN xpos: N_SING text: شهید lemma: شهید upos: NOUN xpos: N_SING text: اسماعیل‌زاده lemma: اسماعیل‌زاده upos: ADJ xpos: ADJ text: در lemma: در upos: ADP xpos: P text: جنوب lemma: جنوب upos: NOUN xpos: N_SING text: تهران lemma: تهران upos: NOUN xpos: N_SING text: می lemma: می upos: NOUN xpos: N_SING text: رفتند lemma: رفت#رو upos: VERB xpos: V_PA text: . lemma: . upos: PUNCT xpos: DELM ---------------------------------------------- ('احمد', '15', 'nsubj') ('و', '3', 'cc') ('بردار', '1', 'conj') ('ش', '3', 'nmod:poss') ('با', '6', 'case') ('هم', '15', 'obl') ('به', '8', 'case') ('مدرسه', '15', 'obl') ('شهید', '8', 'nmod:poss') ('اسماعیل\u200cزاده', '9', 'amod') ('در', '12', 'case') ('جنوب', '9', 'nmod') ('تهران', '12', 'nmod:poss') ('می', '15', 'compound:lvc') ('رفتند', '0', 'root') ('.', '15', 'punct')
منتظر ما باشید: بزودی مقاله‌ای درباره دقت و کارایی (زمانی) این کتابخانه برای زبان فارسی می‌نویسیم.

منابع برتر

استفاده از این مقاله با ذکر منبع "سامانه متن کاوی فارسی‌یار - text-mining.ir"، بلامانع است.
پردازش زبان طبیعیکتابخانه های پردازش متنtextblobpatternstanfordnlp
سرویس‌های متن‌کاوی و پردازش متن فارسی‌یار
سرویس‌های پردازش متن همراه با API رایگان در زبان فارسی - مجموعه کم نظیر از سرویس‌ها، ابزارها و خدمات سفارشی متن‌ کاوی برای پژوهشگران و سازمان‌ها text-mining.ir
شاید از این پست‌ها خوشتان بیاید