ویرگول
ورودثبت نام
علی ثقفی
علی ثقفی
خواندن ۲ دقیقه·۳ سال پیش

tf-idf چیست؟

TFIDF یک شاخص آماری است که ارتباط یک کلمه در داکیومنت را در مجموعه¬ای از داکیومنت¬ها ارزیابی می¬کند.

این موضوع با ضرب دو مقایس انجام می¬گیرد:

1- چند بار یک لغت در یک داکیومنت تکرار شده است.

2- نسبت تکرار شدن کلمه کلیدی به نسبت کل داکیومنت¬ها.

این مورد کاربرد زیادی دارد، که از مهم ترین کاربرد این موضوع در آنالیز متنی خودکار است و بسیار کاربردی است در محاسبه کردن لغات در ماشین لرنینگ بسیار پر کاربرد است در NLP.

TFIDF ابداع شد به منظور جستجوی داکیومنت¬ها و دستیابی به اطلاعات. کاربرد آن بدین صورت است که افزایش نسبتی به تعداد دفعاتی که کلمه در یک داکیومنت تکرار شده است، ولی در تداخل است با تعداد داکیومنت¬هایی که شامل آن لغت است. بنابراین کلماتی که در هر داکیومنت متداول هستند مانند: this ,what & if در طبقات پایین¬تری قرار می¬گیرند، علیرغم اینکه بارها تکرار شده اند، به دلیل اینکه که در داکیومنت خاص تاثیر زیادی ندارند.

با اینحال اگر کلمه¬ی باگ بارها در یک داکیومنت تکرار شود در حالیکه در بقیه جاها تکرار نشود، احتمالاً بدین معنی است که بسیار مرتبط است. برای مثال: اگر کاری که می¬خواهیم انجام دهیم پی بردن به پاسخ¬های مرتبط به NPS باشد، نهایتاً کلمه¬ی باگ در کنار موضوع مربوط قرار می¬گیرد، از آنجایی که عمده¬ی پاسخها شامل کلمه مرتبط با موضوع هستند.


چگونه TF-IDF محاسبه می¬شود؟

همانگونه که قبلاً بحث شد TF-IDF برای یک کلمه در داکیومنت با ضرب دو متریک متفاوت محاسبه می¬شود.

اصطلاح term frequency یک لغت در داکیومنت. چندین راه برای محسابه این فریکونس وجود دارد، که ساده¬ترین آن متعلق به محاسبه خام تعداد دفعات کلمات تکرار شده در یک داکیومنت. سپس روش¬هایی برای تنظیم کردن فرکانس وجود دارد، به صورت طول یک داکیومنت یا تکرار پذیری اولیه کلمه¬ی پرکاربرد در یک داکیومنت.

Inverse document frequency یک کلمه در میان مجموعه¬ای از داکیومنت¬ها. این به معنی کاربرد کم یا متداول یک کلمه در مجموعه¬ی کلی از داکیومنت¬ها را نشان می¬دهد. هر کلمه متداول تر باشد به صفر نزدیکتر می¬شویم. این متریک می¬تواند به وسیله¬ی تعداد کلی داکیومنت¬ها تقسیم بر تعداد داکیومنت¬های شامل لغت محاسبه شود.

در نتیجه اگر یک کلمه بسیار متداول باشد و در تعداد زیادی از داکیومنت¬ها تکرار شود، این عدد به صفر نزدیک می¬شود در غیر اینصورت به یک میل می¬کند.


انتشار دانشدانش آزاد
یک عدد متخصص سئو عاشق تکنولوژی و کد زدن، در این صفحه سعی ‌می‌کنم از تجربه‌هام و موضوعاتی که خودم باهاشون درگیرم صحبت کنم.
شاید از این پست‌ها خوشتان بیاید