knowledgecomputer2023
knowledgecomputer2023
خواندن ۲ دقیقه·۳ سال پیش

پردازش رشته -Tokenization-کاربرد سیستم بازیابی اطلاعات

به نام خدا



:توکن

:فرض می شود متن خالص باشد وگرنه مسئله زیر در مورد آن بیان می شود

  • متن درچه نوع سندی قراردارد pdf/word/excel/html ؟

فرض می شود متن زبان انگلیسی یا فارسی می باشد وگرنه مسئله زیر در مورد آن بیان می شود:

  • متن دارای چه زبانی می باشد؟

فرض می شود متن دارای character set=UTF-8 می باشد وگرنه مسئله زیر درمورد آن بیان می شود:

  • متن از چه مجموعه کاراکتری استفاده می کند؟

مجموعه ای از کاراکترها که یک واژه یا توکن را می سازد.

توکن ها انواع مختلفی دارد وهرکدام برحسب نیاز دارای ارزش می باشد.

:مثال

درساخت موتورجستجو کاراکتر به طول یک جزتوکن محسوب نمی شود.

درسیستم های بازیابی اطلاعات مانند جستجوگرها ممکن است بعضی اعداد را جزتوکن محسوب کنند بعضی ها نه.

.درساخت نرم افزار که بتواند نمودار رسم کند کاراکتر به طول یک جز توکن محسوب می شود

مهمترین بخش هر سیستم بازیابی اطلاعات این بخش می باشد .به این دلیل که اگر بتوان خوب منظور کاربر را متوجه شد پس می توان بهترین جواب رابه کاربر داد.

:حال درمورد بعضی عملیات که روی متن انجام می شود با مزیت آن توضیح داده می شود

1) lower case :

کوچک کردن تمام حروف متن انگلیسی

مزیت:

ازکاربردهای کوچک کردن متن انگلیسی در جستجو می باشد ممکن است کاربر یک کلمه را بزرگ (کوچک)جستجو کند ودرمتن کوچک (بزرگ)باشد.اگر کل متن وجستجوی کاربر کوچک شود مشکل رفع می شود

2) terms

توکن توکن کردن متن - هر توکن به وسیله یک فضای خالی ازهم جدا می شود.هرتوکن درسیستم های بازیابی اطلاعات به عنوان یک بعد درنظر گرفته می شود.

:مسائلی که در این بخش وجود دارد این است که

ممکن است بعضی از زبان هابا فضای خالی از هم جدا نشوند

یا بعضی از زبان ها از چپ به راست وبعضی از راست به چپ نوشته می شوند.

3) Numbers

: مسئله ای که ممکن است در بخش اعداد درنظر گرفته شود نوع یا شکل یا فرمت اعداد می باشد مثلا

  • Mar. 12, 1991 20/3/91 3/20/91 تاریخ
  • (800) 234-2333 شماره تلفن
  • وبقیه فرمت های مربوط به اعداد

4) del stop word:

.(درزبان انگلیسیand ,or) حذف کردن کلماتی که درمتن بسیار تکرار شده اند مانند

و،آن» در زبان فارسی».

هرزبانی stopwords های مخصوص خودش را دارد.

5) stemming ریشه یابی

رساندن هر کلمه به ریشه اش - به این معنی که مثلا کاربر کلمات یا واژه های زیر را جستجو می کند

"stems", "stemmer", "stemming", "stemmed" : ریشه stem

ودر پایگاه داده ریشه اکثر کلمات یا واژه ها یا توکن ها را دارید وبرای رسیدن به جواب کاربر ازآن استفاده می کنید.مزیت استفاده از ریشه یابی این است که مثلا به جای ذخیره توکن های بالا یک توکن به نام ریشه را درپایگاه داده ذخیره می شود. ودیگر مزیت این است که تعداد عمل جستجو کاهش می یابد.

مزیت ها: کاهش حجم ، افرایش سرعت

حال این کارچگونه انجام می شود . هرزبانی دارای الگوریتم ریشه یابی مخصوص به خود می باشد . مثلا در زبانی انگلیسی الگوریتم ریشه یابی پورتر استفاده می شود.

6) Trim یا Strip حذف فضاهای خالی اضافی

ابتدا فضای خالی هر خط را خذف کنید سپس فضای خالی هر واژه را حذف کنید.



موفق باشید

به امید خدا

پردازش رشتهتوکن توکن کردنtokenizationسیستم بازیابی اطلاعاتیinformation retrieval
أَعُوذُ بِاللّه ِ مِنَ الْکَسَل وَ الْفَشَل
شاید از این پست‌ها خوشتان بیاید