خواندن ۳ دقیقه·۴ سال پیش

پیکره متنی فارسی ناب

پیکره متنی ناب

اگر شما هم از محققان هوش مصنوعی و یادگیری ماشین، به‌ویژه در حوزه پردازش گفتار و زبان طبیعی NLP باشید، همواره دغدغه دسترسی به منابع و دادگان زبان فارسی را داشته‌اید.

وجود یک پیکره متنی بزرگ و جامع یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق می‌باشد. ضرورت وجود چنین پیکره متنی بزرگ و مرجع داده به خصوص برای زبان‌هایی که منابع کم‌تری دارند، مثل فارسی، بیشتر جلب توجه می‌کند.

تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کرده‌اند. این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. ناب شامل حدود 130 گیگابایت دیتا متنی است که کل این داده به صورت تفکیک شده شامل 250 میلیون پاراگراف و 15 میلیارد کلمه است.

ناب

در سال های اخیر، پردازش زبان طبیعی به عنوان یکی از مهم‌ترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف می‌شود و از مدل خواسته می‌شود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را می‌شناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس می‌شود. کمبود این منابع متنی باعث می‌شود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.

چرا ناب؟

در طی سالیان گذشته افراد متخصص و محققان زیادی در راستای سهولت فرآیند آموزش در حوزه هوش مصنوعی و به ویژه پردازش زبان طبیعی تلاش کرده‌اند. یکی از نام‌آشناترین و مطرح‌ترین این سازمان‌ها Huggingface می‌باشد. این سازمان کتابخانه‌هایی به زبان پایتون به صورت متن باز تهیه کرده است و به‌این ترتیب آموزش مدل های بر پایه یادگیری انتقالی را بسیار آسان‌تر کرده است. از جمله این کتابخانه‌ها می‌توان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست های استفاده می‌شود با یکدیگر ساختار یکپارچه‌ای می‌سازد که فرآیند آموزش مدل های زبانی را بسیار آسان‌تر می‌کند. پیکره های فارسی موجود هیچ‌کدام بر روی مخزن datasets قرار نگرفته اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس می‌شد. آن‌چه که پیکره ناب را متمایز و مطرح می‌کند قرار گرفتن آن بر روی Huggingface است.

این پیکره متنی به صورت متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره بجویند. از جمله ویژگی‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، به‌این ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.

برای آشنایی بیشتر با جزئیات ناب می‌توانید به این مقاله در عصر گویش پرداز مراجعه کنید. هم‌چنین برای خواندن مقاله ناب به زبان اصلی می‌توانید روی عبارت « naab » کلیک کنید.

لینک‌ها:

مقاله ناب در عصر گویش پرداز

<br/>https://huggingface.co/datasets/SLPL/naab-raw

https://huggingface.co/datasets/SLPL/naab

https://arxiv.org/abs/2208.13486