سرویسهای متنکاوی و پردازش متن فارسییار
تبدیل متن به بردارهای عددی - بخش اول - مقدمه
استخراج و انتخاب ویژگیهای مناسب (Relevant features) از یک مجموعه داده نقش حیاتی در بهبود کیفیت و کارایی روشهای یادگیری ماشین دارند. خصوصاً در دادههای با تعداد ابعاد بالا مانند متون، دادههای بیان ژنی (Gene expression data)، تصویر، صوت، ویدئو و غیره انتخاب ویژگی امری ضروری است.
هدف از استخراج ویژگیهای عددی از متن
اغلب روشهای یادگیری ماشین بر روی دادههای عددی قابل اجرا هستند و برای استفاده و اجرای آنها روی دادههای متنی نیاز به تبدیل متون به مجموعه اعداد است. پس هدف رویکردهای مختلف تبدیل متن به بردارهای عددی، استخراج و انتخاب مجموعهای از ویژگیهای مناسب از متون زبان طبیعی است که در مرحله بعد بوسیله روشهای یادگیری ماشین از قبیل دستهبندی متون (Text classification) استفاده میشوند. بطور کلی، استخراج ویژگی از مجموعه دادهها با دو هدف انجام میشود:
- افزایش کارایی و سرعت روشهای دستهبندی با کاهش ابعاد و اندازه دادهها: بخصوص جهت بکارگیری برخی روشهای دستهبندی که فاز آموزش آنها هزینه و سربار زمانی یا حافظهای بالایی دارند (مانند SVM)، این امر ضروری است.
- افزایش دقت روشهای دستهبندی: با حذف ویژگیهای نویزی (که وجود آنها باعث افزایش خطای دستهبندی برای دادههای جدید میشوند) و استخراج ویژگیهای مناسب (که باعث نزدیک شدن دادههای درون دستهها و تمایز بیشتر بین دادههای دستههای مختلف میشوند).
رویکردهای مختلف بازنمایی برداری متون
به فرایند تبدیل متن به اعداد، بردارسازی (vectorization) یا بازنمایی برداری (vector representation) متون یا مدل بردار کلمات (vector space model - VSM) میگویند.
رویکردهای مختلفی برای بردارسازی متون زبان طبیعی وجود دارند:
- رویکرد کیف کلمات (bag-of-word - BOW)
- کدگذاری دودویی (Binary) یا وانهات (One-Hot Encoding)
- بردارسازی شمارشی (Frequency/Count Vectorizer) یا وزندهی مبتنی بر TF-IDF
- بردارسازی درهم (Hashing Vectorizer)
- شمارش چندگانهها (Word/Char N-gram)
- رویکرد بازنمایی توزیع شده (Distributed Representation) و انتقال یادگیری (Transfer Learning)
- روشهای تعبیه کلمات (Word Embedding) و متن از قبیل:Word2Vec، GloVe، Doc2Vec، FastTextو ...
- روشهای مبتنی بر یادگیری عمیق (Deep Learning) از قبیل: Embedding Layer در شبکه عصبی
- استفاده از بردارهای از پیش آموزش داده شده (pre-trained models) از قبیل: Elmo، GPT، BERT، GPT2، XLM، XLNet، Transfom-XL، DistillBERT و ...
جایگاه پیشپردازش در بازنمایی برداری متن
یکی از مراحل مهم در فرایند متنکاوی پیشپردازش متن است. اغلب پیشپردازش متن در ابتدای فرایند متن کاوی و با یکی از اهداف ذیل انجام میشود:
- پاکسازی و استانداردسازی متن از قبیل: اصلاح نویسهها، فاصله و نیمفاصلهها، وندها یا کلمات مرکب جدانوشته شده، تبدیل کلمات محاورهای و کاراکترهای حسی (ایموجی) به شکل استاندارد، ریشهیابی و ...
- غنیسازی یا حاشیهنویسی متن (افزودن اطلاعات جانبی مفید به متن) از قبیل: برچسبزنی نقش ادات سخن، گسترش معنایی کلمات (افزودن کلمات هممعنی یا همکاربرد با کلمات کلیدی داخل متن) و ...
- حذف ویژگیهای اضافه (کلمات بدون ارزش) از قبیل: حذف کلمات توقف، انتخاب کلیدواژهها یا موجودیتهای نامی و حذف سایر کلمات و ...
پیشنهاد میکنیم، برای اطلاع بیشتر درباره فرایند متن کاوی به این مقاله و برای آشنایی با ابزارهای پردازش متن به این مقاله مراجعه بفرمایید.
در بخشهای بعدی این مقاله درباره رویکردهای مختلف بازنمایی برداری متون صحبت خواهیم کرد.
استفاده از این مقاله با ذکر منبع سامانه متن کاوی فارسییار - text-mining.ir"، بلامانع است.
مطلبی دیگر از این انتشارات
پیکره اخبار فارسییار (مناسب برای زمینههای مختلف متن کاوی)
مطلبی دیگر از این انتشارات
مفهوم و فرآیند متن کاوی و ارتباط آن با پردازش زبان طبیعی
مطلبی دیگر از این انتشارات
فراخوان مشارکت عمومی برای کمک به زبان فارسی