زهره کریمی
زهره کریمی
خواندن ۲ دقیقه·۳ سال پیش

ساخت کوله کلمات (Bag-of-Word) در پیش پردازش متون

در بحث تحلیل متون و داده کاوی قبل از انجام عملیات مختلف مثل طبقه بندی بر روی متن و یا خوشه بندی، نیاز هست تا متون به یک فرمت قابل فهم برای کامپیوتر جهت محاسبات بعدی تبدیل شوند.

متون و اسناد از نوع داده های غیرساختاریافته هستند و به همین دلیل نیاز است تا این نوع داده ها با عملیات مختلف به داده های ساختاریافته و قابل محاسبه برای کامپیوتر تبدیل شوند. روش Bag of Words  یکی از این روش ها می باشد.

با یک مثال ساده این روش را برایتان توضیح می دهم: فرض کنید 3 جمله داریم که می خواهیم مدل BoW را برای آن ایجاد کنیم:

جمله اول: من از این فیلم خوشم آمد

جمله دوم: من این فیلم را به خاطر لیلی رشیدی دوست دارم

جمله سوم: من از این فیلم خوشم نیامد

به مجموعه جملات Corpus گفته می شود. برای ایجاد مدل BoW این جملات، ابتدا برای هر کدام از کلمات یک عدد یکتا نسبت دهیم:

من(1)، از (2)، این (3)، فیلم (4)، خوشم (5)، آمد (6)، را (7)، به (8)، خاطر (9)، لیلی (10)، رشیدی (11)، دوست (12)، دارم(13)، نیامد(14)

دقت داشته باشید که به هر کلمه یک عدد یکتا نسبت دادیم. مثلا برای کلمه (من فقط یک بار عدد 1 انتساب داده شده است.)

خب حالا در مرحله بعد بایستی ویژگی ها را ایجاد کنیم. 3 جمله داریم و 14 کلمه. پس یک ماتریس نیاز داریم که سه سطر و 14 ستون داشته باشد:


همان طور که می بینید بعضی خانه های ماتریس با 1 پر شده اند و بقیه 0 هستند. هر سطر یک جمله و هر ستون یک کلمه است. اگر یک کلمه خاص در یک جمله وجود داشته باشد آن خانه عدد 1 و در غیر این صورت عدد 0 می گیرد.

به این صورت کوله ای از کلمات در ماتریس ساخته می شود که این ماتریس می تواند به الگوریتم های بعدی برای عملیاتی مثل طبقه بندی یا خوشه بندی اعمال شود. در نهایت یک سری داده های غیر ساختار یافته را به یک داده های عددی به صورت ماتریس تبدیل کردیم.

یادگیری ماشینمتن کاویهوش مصنوعیسیستم توصیه گر
کارشناسی ارشد علوم کامپیوتر- (محقق حوزه سیستم های توصیه گر)
شاید از این پست‌ها خوشتان بیاید