<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
    <channel>
        <title>نوشته های آرسام فرهمند</title>
        <link>https://virgool.io/feed/@eexc2</link>
        <description></description>
        <language>fa</language>
        <pubDate>2026-04-15 08:06:04</pubDate>
        <image>
            <url>https://files.virgool.io/upload/users/4014421/avatar/yLeEUz.jpg?height=120&amp;width=120</url>
            <title>آرسام فرهمند</title>
            <link>https://virgool.io/@eexc2</link>
        </image>

                    <item>
                <title>پردازش زبان فارسی در پایتون با کتابخانهٔ shekar</title>
                <link>https://virgool.io/@eexc2/%D9%BE%D8%B1%D8%AF%D8%A7%D8%B2%D8%B4-%D8%B2%D8%A8%D8%A7%D9%86-%D9%81%D8%A7%D8%B1%D8%B3%DB%8C-%D8%AF%D8%B1-%D9%BE%D8%A7%DB%8C%D8%AA%D9%88%D9%86-%D8%A8%D8%A7-%DA%A9%D8%AA%D8%A7%D8%A8%D8%AE%D8%A7%D9%86%D9%87%D9%94-shekar-t7xkprjxqgiw</link>
                <description>کتابخانهٔ shekar یک ابزار متن‌باز پایتونی برای پردازش زبان طبیعی فارسی استکتابخانهٔ shekar یک ابزار متن‌باز پایتونی برای پردازش زبان طبیعی فارسی است که با الهام از داستان معروف «فارسی شِکَر است» ساخته شده است. هدف این کتابخانه فراهم‌کردن بستری ماژولار، ساده و قابل توسعه برای پژوهشگران، توسعه‌دهندگان و علاقه‌مندان به NLP فارسی است.نصب و استفادهبرای نصب کتابخانه از دستور زیر استفاده کنید:pip install shekarنرمال‌سازی متون فارسینرمال‌سازی یکی از مهم‌ترین مراحل پیش‌پردازش است که شامل تبدیل نویسه‌های عربی به فارسی، حذف علائم نگارشی اضافی، حذف شکلک‌ها، حذف تگ‌های HTML، یکنواخت‌سازی فاصله‌ها و... می‌باشد. در shekar می‌توانید از کلاس Normalizer برای این منظور استفاده کنید:from shekar import Normalizer
normalizer = Normalizer()
text = &amp;quotۿدف ما ػمګ بۀ ێڪډيڱڕ أښټ&amp;quot
print(normalizer(text))  خروجی: &quot;هدف ما کمک به یکدیگر است&quot;در این کلاس همچنین قابلیت استفاده به صورت Decorator نیز پشتیبانی می‌شود: @normalizer.on_args([&amp;quottext&amp;quot])
def process_text(text):
   return text
print(process_text(&amp;quotتو را من چشم👀 در راهم!&amp;quot))خروجی: &quot;تو را من چشم در راهم&quot;ساخت Pipeline سفارشیاگر مایل باشید مراحل پیش‌پردازش را به‌صورت دلخواه طراحی کنید، می‌توانید از کلاس Pipeline استفاده کرده و ابزارهای shekar.preprocessing را به‌دلخواه ترکیب کنید:from shekar import Pipeline
from shekar.preprocessing import EmojiRemover, PunctuationRemover
pipeline = Pipeline([
    (&amp;quotremoveEmoji&amp;quot, EmojiRemover()),
    (&amp;quotremovePunct&amp;quot, PunctuationRemover()
])
text = &amp;quotپرنده‌های 🐔 قفسی، عادت دارن به بی‌کسی!&amp;quot
print(pipeline(text))  خروجی: &quot;پرنده‌های  قفسی عادت دارن به بی‌کسی&quot;ابزارهای پیش‌پردازش موجود در Shekarبرخی از کلاس‌های مهم در shekar.preprocessing عبارتند از:SpacingStandardizer اصلاح فاصله‌ها و حذف فاصله‌های اضافیAlphabetNormalizerیکنواخت‌سازی نویسه‌های فارسی/عربیNumericNormalizerتبدیل اعداد به فرمت فارسیPunctuationNormalizerنرمال‌سازی علائم نگارشیEmojiRemoverحذف ایموجی‌هاEmailMasker / URLMaskerحذف یا پنهان‌سازی ایمیل‌ها و لینک‌هاDiacriticsRemoverحذف حرکات و اعراب از متنStopwordRemoverحذف کلمات ایست فارسی (stopwords)NonPersianRemoverحذف نویسه‌های غیر فارسیHTMLTagRemoverحذف تگ‌های HTMLاستفاده به صورت Dcorator@pipeline.on_args(&amp;quottext&amp;quot)
def process(text):
    return text
print(process(&amp;quotتو را من چشم👀 در راهم!&amp;quot))خروجی: &quot;تو را من چشم در راهم&quot;توکن‌سازی جملاتبرای تقسیم متن به جمله‌ها می‌توانید از SentenceTokenizer استفاده کنید:from shekar.tokenizers import SentenceTokenizer
text = &amp;quotهدف ما کمک به یکدیگر است! ما می‌توانیم با هم کار کنیم.&amp;quot
tokenizer = SentenceTokenizer()
sentences = tokenizer.tokenize(text)
for sentence in sentences:
     print(sentence)استخراج بردارهای واژه (Word Embeddings)کتابخانه‌ی Shekar از مدل‌های FastText پیش‌آموزش‌دیده برای متون فارسی پشتیبانی می‌کند. برای استفاده از آن‌ها کافیست از کلاس Embedder استفاده کنید:from shekar import Embedder
embedder = Embedder(model_name=&amp;quotfasttext-d100-w10-cbow-blogs&amp;quot)دریافت بردار یک واژهvector = embedder[&amp;quotکتاب&amp;quot]یافتن کلمات مشابهsimilar_words = embedder.most_similar(&amp;quotکتاب&amp;quot, topn=5)
print(similar_words)مدل‌های پشتیبانی‌شده شامل موارد زیر هستند:fasttext-d300-w5-cbow-naab (آموزش‌دیده روی پیکره Naab)fasttext-d100-w10-cbow-blogs (آموزش‌دیده روی وبلاگ‌های فارسی)</description>
                <category>آرسام فرهمند</category>
                <author>آرسام فرهمند</author>
                <pubDate>Fri, 16 May 2025 10:16:54 +0330</pubDate>
            </item>
            </channel>
</rss>