نوشته های آرسام فرهمند

نوشته های آرسام فرهمند https://virgool.io/feed/@eexc2 fa 2026-06-21 18:29:56 https://files.virgool.io/upload/users/4014421/avatar/yLeEUz.jpg?height=120&width=120 آرسام فرهمند https://virgool.io/@eexc2 پردازش زبان فارسی در پایتون با کتابخانهٔ shekar https://virgool.io/@eexc2/%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%B2%D8%A8%D8%A7%D9%86-%D9%81%D8%A7%D8%B1%D8%B3%DB%8C-%D8%AF%D8%B1-%D9%BE%D8%A7%DB%8C%D8%AA%D9%88%D9%86-%D8%A8%D8%A7-%DA%A9%D8%AA%D8%A7%D8%A8%D8%AE%D8%A7%D9%86%D9%87%D9%94-shekar-t7xkprjxqgiw کتابخانهٔ shekar یک ابزار متن‌باز پایتونی برای پردازش زبان طبیعی فارسی استکتابخانهٔ shekar یک ابزار متن‌باز پایتونی برای پردازش زبان طبیعی فارسی است که با الهام از داستان معروف «فارسی شِکَر است» ساخته شده است. هدف این کتابخانه فراهم‌کردن بستری ماژولار، ساده و قابل توسعه برای پژوهشگران، توسعه‌دهندگان و علاقه‌مندان به NLP فارسی است.نصب و استفادهبرای نصب کتابخانه از دستور زیر استفاده کنید:pip install shekarنرمال‌سازی متون فارسینرمال‌سازی یکی از مهم‌ترین مراحل پیش‌پردازش است که شامل تبدیل نویسه‌های عربی به فارسی، حذف علائم نگارشی اضافی، حذف شکلک‌ها، حذف تگ‌های HTML، یکنواخت‌سازی فاصله‌ها و... می‌باشد. در shekar می‌توانید از کلاس Normalizer برای این منظور استفاده کنید:from shekar import Normalizer normalizer = Normalizer() text = &quotۿدف ما ػمګ بۀ ێڪډيڱڕ أښټ&quot print(normalizer(text)) خروجی: "هدف ما کمک به یکدیگر است"در این کلاس همچنین قابلیت استفاده به صورت Decorator نیز پشتیبانی می‌شود: @normalizer.on_args([&quottext&quot]) def process_text(text): return text print(process_text(&quotتو را من چشم👀 در راهم!&quot))خروجی: "تو را من چشم در راهم"ساخت Pipeline سفارشیاگر مایل باشید مراحل پیش‌پردازش را به‌صورت دلخواه طراحی کنید، می‌توانید از کلاس Pipeline استفاده کرده و ابزارهای shekar.preprocessing را به‌دلخواه ترکیب کنید:from shekar import Pipeline from shekar.preprocessing import EmojiRemover, PunctuationRemover pipeline = Pipeline([ (&quotremoveEmoji&quot, EmojiRemover()), (&quotremovePunct&quot, PunctuationRemover() ]) text = &quotپرنده‌های 🐔 قفسی، عادت دارن به بی‌کسی!&quot print(pipeline(text)) خروجی: "پرنده‌های قفسی عادت دارن به بی‌کسی"ابزارهای پیش‌پردازش موجود در Shekarبرخی از کلاس‌های مهم در shekar.preprocessing عبارتند از:SpacingStandardizer اصلاح فاصله‌ها و حذف فاصله‌های اضافیAlphabetNormalizerیکنواخت‌سازی نویسه‌های فارسی/عربیNumericNormalizerتبدیل اعداد به فرمت فارسیPunctuationNormalizerنرمال‌سازی علائم نگارشیEmojiRemoverحذف ایموجی‌هاEmailMasker / URLMaskerحذف یا پنهان‌سازی ایمیل‌ها و لینک‌هاDiacriticsRemoverحذف حرکات و اعراب از متنStopwordRemoverحذف کلمات ایست فارسی (stopwords)NonPersianRemoverحذف نویسه‌های غیر فارسیHTMLTagRemoverحذف تگ‌های HTMLاستفاده به صورت Dcorator@pipeline.on_args(&quottext&quot) def process(text): return text print(process(&quotتو را من چشم👀 در راهم!&quot))خروجی: "تو را من چشم در راهم"توکن‌سازی جملاتبرای تقسیم متن به جمله‌ها می‌توانید از SentenceTokenizer استفاده کنید:from shekar.tokenizers import SentenceTokenizer text = &quotهدف ما کمک به یکدیگر است! ما می‌توانیم با هم کار کنیم.&quot tokenizer = SentenceTokenizer() sentences = tokenizer.tokenize(text) for sentence in sentences: print(sentence)استخراج بردارهای واژه (Word Embeddings)کتابخانه‌ی Shekar از مدل‌های FastText پیش‌آموزش‌دیده برای متون فارسی پشتیبانی می‌کند. برای استفاده از آن‌ها کافیست از کلاس Embedder استفاده کنید:from shekar import Embedder embedder = Embedder(model_name=&quotfasttext-d100-w10-cbow-blogs&quot)دریافت بردار یک واژهvector = embedder[&quotکتاب&quot]یافتن کلمات مشابهsimilar_words = embedder.most_similar(&quotکتاب&quot, topn=5) print(similar_words)مدل‌های پشتیبانی‌شده شامل موارد زیر هستند:fasttext-d300-w5-cbow-naab (آموزش‌دیده روی پیکره Naab)fasttext-d100-w10-cbow-blogs (آموزش‌دیده روی وبلاگ‌های فارسی) آرسام فرهمند آرسام فرهمند Fri, 16 May 2025 10:16:54 +0330