TF-IDF چیست؟ کاربرد آن برای سئو و نحوه اجرای آن

ذهن انسان بسیار شگفت‌انگیز است! وقتی همکارتان به شما می‌گوید: «قبل از رفتن پیش رئیس، ابتدا موضوع را برای من اجرا کن»، می‌دانید که منظور آن‌ها این است ابتدا موضوع را برای آن‌ها توضیح دهید و به معنای واقعی کلمه، منظور آن‌ها «نمایش اجرا کردن» نیست. در واقع شما با نگاه کردن به زمینه‌ای که همکارتان در آن صحبت کرده است، مشخص می‌کنید که چه منظوری دارد.

موتورهای جستجو نیز به همین شکل تعیین می‌کنند که کدام محتوا به جستجوی کاربر مرتبط است. به لطف حضور الگوریتم پردازش زبان طبیعی (NLP)، روزهایی که مجبور بودید فهرستی طولانی از پست‌های بی‌ربط به محتوای خود را بررسی کنید، گذشته است.

ما به عنوان متخصصان سئو، وظیفه داریم عملکرد گوگل و جریان بیش از ۲۰۰ عامل رتبه‌بندی الگوریتم را بررسی کنیم و سپس از یافته‌های خود گزارشی تهیه کنیم. در طول سال‌های متمادی فعالیت ما در این حوزه، اگر یک اصل را کشف کرده‌ باشیم این است:

پادشاه ما محتوا است.

محتوای خوب می‌تواند یک وب‌سایت را بسازد یا آن را خراب کند، مشتری شما را توسط اطلاعات مرتبط جذب کند یا او را مایوس کند. متاسفانه اهمیت محتوا توسط سئوکاران تازه کار نادیده گرفته می‌شود. بسیاری از سئوکاران آنقدر بر روی بازی با اعداد متمرکز شده‌اند که تعداد کمی از آن‌ها به کیفیت محتوای تولید شده اهمیت می‌دهند. ما فکر می‌کنیم زمان تغییر فرا رسیده است. به همین خاطر می‌خواهیم در این مقاله با TF-IDF آشنا شویم تا بتوانیم به بهترین شکل محتوای خود را بهینه‌ سازی کنیم. پس با ما همراه باشید.

TF-IDF چیست؟

برای درک معنای TF-IDF، باید اساساً دو مفهوم را به خوبی درک کنید. قسمت اول عبارت، فرکانس یا TF (Term Frequency) و قسمت دوم، فرکانس معکوس محتوا یا IDF (Inverse Document Frequency) است.

درک مفهوم اول نسبتاً آسان است. برای مثال، اگر می خواهید بدانید که TF در مورد کلمه «بازاریابی» در یک محتوا به چه معنا است، ابتدا باید تعداد دفعاتی که کلمه «بازاریابی» در آن محتوا ظاهر می شود را بشمارید. فرض کنید ۱۵ بار ظاهر می‌شود؛ حال باید تعداد کلمات محتوا را در نظر بگیرد. فرض کنید محتوای مورد نظر دارای ۱۰۰ کلمه است. اکنون برای به دست آوردن TF برای «بازاریابی»، باید تعداد دفعات ظاهر شده را بر تعداد کلمات محتوا تقسیم کنید. بنابراین TF برای کلمه «بازاریابی» برابر با ۰.۱۵ می‌شود.

درک مفهوم دوم کمی پیچیده به نظر می‌رسد؛ اگر کلمه "بازاریابی" را در ۱۰۰ محتوا جستجو کنید و آن را در ۱۰ محتوا پیدا کنید، IDF آن برابر با حاصل (Log(10 می‌شود.

هرچه محتواهای کمتری دارای کلمه کلیدی مورد نظر شما باشند، رقم IDF بزرگتر خواهد بود؛ ولی اگر محتواهای بیشتری حاوی کلمه کلیدی باشند، مقدار IDF کوچکتر می‌شود.

برای بدست آوردن مقدار TF-IDF کافی است مقدار TF را در مقدار IDF ضرب کنید:

وقتی IDF را در TF ضرب می‌کنید، به رقمی می‌رسید که میزان رایج بودن کلمه کلیدی را نشان می‌دهد. در واقع یک TF-IDF بزرگ، نشان‌دهنده یک کلمه کلیدی نادر است؛ در حالی که یک TF-IDF کوچک، یک کلمه کلیدی رایج را نشان می‌دهد.

TF-IDF چگونه کار می‌کند؟

TF-IDF، کلمه کلیدی را با مجموعه‌ای از صفحاتی که برای آن رتبه‌بندی شده‌اند مقایسه می‌کند و میزان اهمیت یک کلمه کلیدی را در صفحه مشخص شده اندازه‌گیری می‌کند. در واقع TF-IDF آن دسته از عبارات مرتبط معنایی را به شما نشان می‌دهد که گوگل آن‌ها را بسیار مرتبط با آن کلمه کلیدی می‌داند؛ همین موضوع باعث می‌شود احتمال اینکه محتوای شما به موضوع مورد نظر کاربر ارتباط داشته باشد، افزایش یابد.

TF-IDF با مقایسه صفحه شما با صفحات دارای رتبه بالا در همان دسته، ارزش کلمات بی‌اهمیت را کاهش و همینطور ارزش کلمات با اهمیت را افزایش می‌دهد.

به عنوان مثال، ممکن است صفحه‌ای که می‌خواهید بهینه سازی کنید درباره «دلستر» باشد. حروف معین و نامعین مانند «در»، «و» و «به» در تمام صفحات برتر این موضوع بسیار رایج هستند، زیرا این کلمات تقریباً در همه مقالات وجود دارند. با این حال، کلماتی مانند «ماءالشعیر»، «دلستر جوجو» و «دلستر شیشه ای» کمتر رایج هستند. بنابراین، در گوگل به عنوان کلماتی که با موضوع اصلی (دلستر) بسیار مرتبط هستند شناخته می‌شوند.

با گنجاندن کلمات کلیدی مرتبط در محتوای خود، صاحبان موتورهای جستجو را از کیفیت بالای آن باخبر می‌کنید. بنابراین، گوگل به احتمال زیاد محتوای شما را در بین بهترین‌ها رتبه بندی می‌کند. به همین خاطر TF-IDF بسیار ارزشمند است.

قبل‌تر گفتیم که موتورهای جستجو، برای تعیین ارتباط یک محتوا با عبارت جستجو شده توسط کاربر از فرمول TF-IDF استفاده می‌کنند. در این بخش می‌خواهیم متوجه شویم که دقیقاً چگونه این کار انجام می‌شود.

فرض کنید مقاله‌ای داریم که در آن ۱۰ اصطلاح رایج وجود دارد: بازاریابی ایمیلی، تجارت، اینترنت، آنلاین، سود، فروش، پول، محصولات، لیدها و… . سپس موتور جستجو لیستی از محتوای مقالات از پیش تعیین شده را بررسی می‌کند تا مشخص کند مقاله در مورد چیست. در این مورد، محتواهای به دست آمده می‌توانند مقالات مرتبط با کسب و کار باشند، زیرا بسیاری از اصطلاحات بالا به نظر «مرتبط با کسب و کار» هستند.

با توجه به این فرآیند، موتور جستجو متوجه می‌شود که عبارات تجارت، سود، فروش، پول و محصولات در بسیاری از محتواها وجود دارد. بنابراین اکنون عبارت‌های بازاریابی ایمیلی، اینترنت، آنلاین، لیدها باقی مانده‌اند. این‌ها اصطلاحات منحصر به فرد شناسایی شده در موضوع این مقاله هستند.

اکنون موتور جستجو می‌داند که موضوع مقاله چیست: «بازاریابی ایمیلی برای افزایش لید و تبدیل». اگر این مقاله برای یک عبارت جستجو شده مفید باشد، در نتایج جستجوی کاربر ظاهر می‌شود.

چرا برای بهینه‌سازی محتوا باید از TF-IDF استفاده کنیم؟

معمولاً برای بهینه‌سازی محتوا، با توجه به «چگالی» تحقیق کلمات کلیدی را انجام می‌دهند. به این معنا که تعداد دفعات ایده‌آل برای نمایش کلمه کلیدی هدف من در محتوا چقدر باشد تا گوگل بتواند متوجه شود؟

متخصصان سئو، این رویکرد را در تلاش برای درک دیدگاه گوگل در مورد چگونگی مرتبط بودن کلمات کلیدی ایجاد کرده‌اند؛ با وجود اینکه تا به امروز همچنان از چگالی کلمات کلیدی استفاده می‌کنیم، این مفهوم نمی‌تواند تمام اطلاعات را به ما نشان دهد.

سئوکاران حرفه‌ای معتقدند گوگل با استفاده از «نکات رعایت شده در محتوا» می‌تواند میزان مرتبط بودن یک صفحه با درخواست کاربر را تعیین کند. این همان سئوی معنایی (Semantic Search) است؛ سئوی معنایی به این موضوع می‌پردازد که چرا یک صفحه با بیشترین چگالی کلمه کلیدی در بالای SERP (صفحه نتایج موتور جستجو) نشان داده نمی‌شود. گوگل برای آنکه تشخیص دهد محتوای مورد نظر شما دقیقاً همان چیزی است که به او ارائه داده‌اید، به شواهد بیشتری نیاز دارد؛ به همین خاطر، وب‌سایت‌هایی که کلمات کلیدی خود را بیهوده پر می‌کنند (Keyword Stuffing) توسط گوگل حذف می‌شوند و به این صورت SERP رتبه بندی می‌شود.

در گذشته شرایط به گونه دیگری بود؛ گوگل برای آنکه مشخص کند کدام صفحات باید در نتایج موتورهای جستجو ظاهر شوند، قبل از اینکه برای درک معنای کلمات کلیدی به شمارش آن‌ها روی آورد یا به زمینه محتوایی توجه کند، کلمات کلیدی موجود در عبارت جستجو شده را با کلمات کلیدی محتوا مقایسه می‌کرد.

برای مثال، اگر عبارت «سگ» را جستجو کنید، گوگل صفحه شما را بر اساس تعداد دفعاتی که این عبارت در محتوای شما ظاهر می‌شود رتبه بندی می‌کند. چگالی کلمه کلیدی را می‌توان با تقسیم تعداد دفعاتی که کلمه کلیدی ظاهر می‌شود بر تعداد کل کلمات صفحه محاسبه کرد. سپس نتیجه در ۱۰۰ ضرب می‌شود.

مثلاً اگر یک پست وبلاگ دارای ۱۰۰۰ کلمه باشد و یک کلمه کلیدی ۱۰ بار در آن ظاهر شود، مقاله دارای چگالی کلمه کلیدی ۱٪ است. ایده این است که اگر آن وبلاگ را با تراکم ۱٪ و وبلاگ دیگری را با تراکم کلمه کلیدی ۲٪ مقایسه کنید، وبلاگ دوم بر اساس چگالی کلمات کلیدی بیشتری که دارد در نتایج جستجوی گوگل برتری خواهد داشت. همچنین اگر یک درصد خاصی از کلمه کلیدی را برای به دست آوردن رتبه های بالاتر گوگل کسب کنید، می‌توانید در صفحه نتایج جستجوی گوگل رتبه برتری به دست آورید.

در نتیجه، بسیاری از متخصصان سئو تصور کردند می‌توانند موتور جستجو را تنها با قرار دادن کلمات کلیدی در محتوای خود فریب دهند. با اینکه برای مدتی موفق شدند، ولی با توسعه هوش مصنوعی، گوگل متوجه این موضوع شد. امروزه چگالی کلمات کلیدی اهمیت کمتری دارد. در واقع موضوع مهم برای کارشناسان سئو جستجوی معنایی است و نتایج جستجوی گوگل کاملاً نسبت به گذشته تغییر کرده است.

یک مثال از سمنتیک سرچ

برای مثال، در گذشته هر بار که عبارت «فیل چقدر بزرگ است؟» را تایپ می‌کردید، موتور جستجو به دنبال تطبیق کلمات کلیدی خاص از عبارت «چقدر بزرگ است» بود و صفحات وب را دقیقاً مطابق با همان کلمات کلیدی برمی‌گرداند. نتیجه چه بود؟ احتمالاً قبل از اینکه واقعاً صفحه‌ای را پیدا کنید که به سوال شما پاسخ می‌دهد، باید نتایج زیادی را بررسی می‌کردید. با پیدایش جستجوی معنایی، گوگل اساساً قصد جستجوگر را با مشاهده تاریخچه جستجوی کاربر، مکان کاربر، تاریخچه جستجوها و نکات نگارشی تشخیص می‌دهد. بنابراین وقتی عبارت «فیل چقدر بزرگ است؟» را تایپ می‌کنید، گوگل نتایجی را برمی‌گرداند که مستقیماً به سوال شما پاسخ می‌دهند.

سمنتیک سرچ به دنبال درک اهداف کاربر از جستجو

تصور اینکه چرا گوگل به جستجوی معنایی اهمیت بیشتری می‌دهد سخت نیست. علاوه بر این، جستجوی معنایی به دنبال درک هدف کاربر است؛ در واقع جستجوی معنایی، بهترین تجربه جستجوی ممکن را به کاربران هدیه می‌دهد. به بیان ساده، ماموریت گوگل روشن است: سازماندهی اطلاعات وب، قابل دسترس و کاربردی کردن آن برای همه. از آنجایی که بعید است در آینده نزدیک اهمیت جستجوی معنایی کاهش یابد، بهتر است کارشناسان سئو خود را با این موضوع وفق دهند و تسلط بالایی به این موضوع بدست آورند.

نحوه استفاده از TF-IDF برای بهبود محتوای سئو

مطمئناً گوگل باهوش است؛ اما همانطور که گفتیم، ذهن انسان شگفت‌انگیز است. این بدان معناست که شما نیز می‌توانید محتوا را با استفاده از TF-IDF به نفع خود توسعه دهید. برای بهبود محتوای سئو توسط TF-IDF، اقدامات زیر را می‌توانید انجام دهید:

  • برای کلمات کلیدی مورد نظر خود، ۱۰ جستجوی برتر را بررسی کنید.
  • عباراتی که اغلب کلمات کلیدی در آن‌ها وجود دارند، زمینه‌ای که معمولاً در آن ظاهر می‌شوند و روابط بین آن کلمات را شناسایی کنید.
  • سعی کنید همه این اصطلاحات کلیدی شناسایی شده را به محتوای خود اضافه کنید.
  • محتوای خود را بنویسید و آن را منتشر کنید.
  • ارتباط محتوای منتشر شده خود را با سایر محتواهای مربوط به آن حوزه بررسی کنید.

استفاده از ابزار Netpeak Checker

توسط Netpeak Checker می‌توانید کلمات کلیدی مورد نظر خود را در صفحات بالای SERP پیدا کنید و آن‌ها را در محتوای خود بگنجانید. همچنین می‌توانید نحوه عملکرد خود را بررسی کنید؛ این ابزار می‌تواند حضور نسبی این کلمات را از نظر امتیازات TF-IDF در مقالات رتبه‌ بندی برتر مقایسه کند.

برای انجام آن، مراحل زیر را دنبال کنید:

۱- Netpeak Checker را نصب کنید و به ابزار داخلی SE Scraper بروید.

۲- لیست پرس و جوها را وارد کنید. فراموش نکنید که هر درخواست جدید را در یک خط جدید قرار دهید.

۳- اگر می‌خواهید نتایج به دست آمده در موتور جستجوی Google را به طور کامل بررسی کنید، به قسمت «تنظیمات» بروید و گزینه Google را علامت بزنید.

۴- برای شروع جستجو، دکمه "شروع" را فشار دهید. در عرض چند ثانیه می‌توانید به نتایج دسترسی پیدا کنید.

TF-IDF، بهترین ابزار برای بهینه‌ سازی محتوا

پتنت های اختصاصی به گوگل نشان می‌دهند که آن‌ها در واقع هرگز از چگالی کلمه کلیدی به عنوان معیاری برای رتبه بندی صفحات استفاده نکرده‌اند، زیرا این معیار تنها در ظاهر موفق به نظر می‌رسد؛ داده‌ها بسیار غیرقابل پیش‌بینی هستند و نمی‌توان آن‌ها را به‌ خوبی ارزیابی کرد تا بتوانند به‌ عنوان معیاری به اندازه کل اینترنت مورد استفاده قرار گیرند؛ بنابراین، گوگل برای زمان زیادی است که از TF-IDF به عنوان ابزاری برای ارزیابی استفاده می‌کند.

با اینکه توضیح دقیق پتنت‌های گوگل همواره کار مشکلی بوده، اما خلاصه TF-IDF این است که یک ابزار است برای رتبه‌دهی وب‌سایت‌ها در صفحات موتور جستجو.

با بررسی داکیومنت‌های موجود در پتنت‌ها، گوگل می‌تواند به اطلاعاتی برای ایجاد رتبه بندی صفحات دست پیدا کند.

از آنجایی که گوگل از TF-IDF به عنوان معیار رتبه‌دهی در SERP استفاده می‌کند، بهترین راه برای اطمینان از اینکه وب‌سایت شما انتظارات گوگل را برآورده می‌کند یا نه، استفاده از TF-IDF در سئو سایت است.

فعالیت‌های زیادی برای استفاده از TF-IDF برای بهبود محتوای سئو وجود دارد. کلید موفقیت ساده است؛ بدانید TF-IDF چگونه کار می‌کند و نکات مطرح شده را رعایت کنید. اگر این کارها را انجام دهید، دلیلی وجود ندارد که نتوانید محتوای خود را در بالاترین رتبه نتایج موتورهای جستجو مشاهده کنید.