اگر شما هم از محققان هوش مصنوعی و یادگیری ماشین، بهویژه در حوزه پردازش گفتار و زبان طبیعی NLP باشید، همواره دغدغه دسترسی به منابع و دادگان زبان فارسی را داشتهاید.
وجود یک پیکره متنی بزرگ و جامع یکی از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق میباشد. ضرورت وجود چنین پیکره متنی بزرگ و مرجع داده به خصوص برای زبانهایی که منابع کمتری دارند، مثل فارسی، بیشتر جلب توجه میکند.
تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری شرکت عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردهاند. این پیکره مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. ناب شامل حدود 130 گیگابایت دیتا متنی است که کل این داده به صورت تفکیک شده شامل 250 میلیون پاراگراف و 15 میلیارد کلمه است.
در سال های اخیر، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف میشود و از مدل خواسته میشود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را میشناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس میشود. کمبود این منابع متنی باعث میشود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.
در طی سالیان گذشته افراد متخصص و محققان زیادی در راستای سهولت فرآیند آموزش در حوزه هوش مصنوعی و به ویژه پردازش زبان طبیعی تلاش کردهاند. یکی از نامآشناترین و مطرحترین این سازمانها Huggingface میباشد. این سازمان کتابخانههایی به زبان پایتون به صورت متن باز تهیه کرده است و بهاین ترتیب آموزش مدل های بر پایه یادگیری انتقالی را بسیار آسانتر کرده است. از جمله این کتابخانهها میتوان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست های استفاده میشود با یکدیگر ساختار یکپارچهای میسازد که فرآیند آموزش مدل های زبانی را بسیار آسانتر میکند. پیکره های فارسی موجود هیچکدام بر روی مخزن datasets قرار نگرفته اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس میشد. آنچه که پیکره ناب را متمایز و مطرح میکند قرار گرفتن آن بر روی Huggingface است.
این پیکره متنی به صورت متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره بجویند. از جمله ویژگیهای پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بهاین ترتیب میتوانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.
برای آشنایی بیشتر با جزئیات ناب میتوانید به این مقاله در عصر گویش پرداز مراجعه کنید. همچنین برای خواندن مقاله ناب به زبان اصلی میتوانید روی عبارت « naab » کلیک کنید.
لینکها:
<br/>https://huggingface.co/datasets/SLPL/naab-raw
https://huggingface.co/datasets/SLPL/naab
https://arxiv.org/abs/2208.13486