
وقتی لینکها مثل رأیهای بیمعنا تکثیر میشوند، از منوهای تکراری تا لینکفارم، سیستم جستجو بهجای سنجش اعتبار واقعی، به شمارش ساده ارجاعات تقلیل پیدا میکند. پتنت US8577893B1 از Google LLC دقیقاً سر همین زخم میرود؛ اینکه چطور با افزودن بافت زبانی اطراف لینک به معادله، هم دقت رتبهبندی بالا برود و هم دستکاریهایی مثل بمبگذاری انکرتکست اثر کمتری بگذارند.
ایده مرکزی پتنت ساده اما تیز است: فقط خود لینک را نبین، حاشیه متنش را هم بخوان. از همان حاشیه یک شناسه متن بساز و بر اساس الگوی وقوع این شناسهها، صفحه مقصد را امتیاز بده.
در فضای جستجو، دو نوع هرزنامه اصلی وجود دارد: هرزنامه مبتنی بر لینک که با انباشت ارجاعات کمکیفیت شکل میگیرد و هرزنامه انکرتکست که با تکرار افراطی کلمات خاص در متن لینک انجام میشود. هر دو، الگوریتم را از تشخیص کیفیت واقعی محتوا دور میکنند. راهحل این پتنت بیاعتبار کردن لینکها نیست، بلکه بازگرداندن معنای آنهاست.
هدف این است که اعتبار از دل زمینه زبانی استخراج شود تا هر ارجاع بار معنایی واقعی پیدا کند. در توصیف اجزای سیستم و دعاوی پتنت، بهروشنی آمده است که رتبه یک سند مقصد، از طریق شناسههای متنی استخراجشده از اطراف ارجاعات، تعدیل میشود.
قلب ماجرا این است که برای هر لینک از سند A به سند B، موتور جستجو دو پنجره متنی را در دو سوی لینک تحلیل میکند. از هر پنجره واژه یا عبارت نایاب در پیکره را برمیگزیند و از ترکیب آنها یک Context Identifier میسازد. سپس سند مقصد بر اساس مجموعهای از این شناسهها و الگوی وقوعشان در اسناد مختلف، امتیاز میگیرد. ایده در چند بند کلیدی پتنت به وضوح آمده است: تحلیل متن چپ و راست لینک، شناسایی واژههای نایاب، ساخت شناسه و استفاده از امتیاز مبتنی بر آن در کنار سایر عوامل رتبهبندی.
برای درک روشنتر فرآیند، زنجیره محاسباتی پتنت به این ترتیب است:
یافتن مرجع در سند مبدأ: سیستم پیوند A به B را تشخیص میدهد.
برداشت پنجرههای متنی: بخشی از متن چپ و راست لینک جدا میشود.
گزینش واژه نایاب: در هر پنجره، کمتکرارترین واژه یا عبارت انتخاب میشود تا واژگان عمومی حذف شود.
ساخت شناسه متن: دو واژه نایاب ترکیب میشوند و در برخی موارد هش میگردند تا یک شناسه یکتا شکل بگیرد.
تجمیع و امتیازدهی: برای هر مقصد، فهرستی از شناسههای رخداده در سراسر وب ساخته میشود؛ سپس وزن هر شناسه بر اساس شمار وقوع و توزیع آن در زمان و منابع مختلف سنجیده میگردد.
ادغام با سایر سیگنالها: امتیاز کانتکست یکی از چندین ورودی رتبهبندی است و بهتنهایی تعیینکننده نیست.
این روند ساده دو نتیجه مهم دارد: نخست اینکه لینکهای تکراری در منو و فوتر بهصورت طبیعی وزن کمتری میگیرند؛ چون اطرافشان واژههای متمایز وجود ندارد. دوم اینکه لینکهای توضیحدار در متن اصلی، که دلیل ارجاع را بیان میکنند، سیگنال قویتری تولید مینمایند.
در ساختار تعریفشده، دو مؤلفه اصلی وجود دارد:
Document Analyzing Component که مسئول استخراج لینک و واژگان نایاب و ساخت شناسه است.
Document Ranking Component که دادههای شناسهها را میگیرد، بر اساس تعداد، تنوع و توزیع آنها امتیاز مقصد را محاسبه میکند و در نهایت این امتیاز را در کنار دیگر سیگنالها وارد رنکینگ میسازد.
این جداسازی نشان میدهد که تحلیل زبانی مرحلهای پیشپردازشی است و رتبهبندی، مرحله ادغام نهایی دادهها.
پرسش طبیعی این میباشد که چرا تمرکز روی واژههای کمتکرار است. پاسخ در خود پتنت آمده: واژههای عمومی در همه قالبها تکرار میشوند و تمایز معنایی ایجاد نمیکنند، اما واژههای نایاب حامل معناهای خاص و نشانههای موضوع دقیق هستند. وقتی لینکی در جملهای قرار دارد که شامل این واژههای خاص است، آن ارجاع از نظر معنایی ارزشمندتر از لینکهای کلی و تکراری خواهد بود. به همین دلیل، انتخاب واژههای نایاب بهعنوان ماده اولیه شناسه متن، منطقی و مؤثر است.
پتنت فقط استخراج شناسه را شرح نمیدهد و نسبت به الگوی بروز آن هم حساس است. چند ظرافت ضداسپم در بخش شرح و دعاوی این سند دیده میشود:
توزیع غیرطبیعی: اگر یک شناسه مشخص ناگهان و همزمان در منابع متعدد ظاهر شود، سیستم میتواند وزن آن را کاهش دهد. چنین جهشهای همگون معمولاً نشانه کمپینهای ساختگی هستند، نه ارجاعات طبیعی.
سابقه زمانی: توزیع پایدار در طول زمان از جهشهای مقطعی باارزشتر است. نگاه به تاریخچه وقوع شناسهها باعث میشود سیستم مفهوم پایداری را در رتبهبندی لحاظ کند.
خوشهبندی کانتکستها: ارجاعاتی که در یک زمینه مشترک قرار دارند، در گروهها جمع میشوند و بر اساس همان گروه امتیاز میگیرند. این روند کمک میکند تا الگوی طبیعی از الگوی مصنوعی جدا شود.
تا اینجا روایت کاملاً مطابق متن پتنت است. حالا همان مفاهیم را به زبان اجرایی بیان میکنیم، بدون اینکه چیزی بیرون از سند افزوده شود. این بخش تفسیر عملی همان خطوط پتنت است:
لینک توضیحدار ارزشمندتر از لینک خام است؛ چون شناسه از متن پیرامون میآید، هر چه جمله یا پاراگراف دارای واژههای خاصتر و متمایزتر باشد، سیگنال غنیتری تولید میشود. در مقابل، لینکهای ناوبری و تکراری بهصورت طبیعی از این فیلتر کماثرتر عبور میکنند.
تنوع شناسهها برای یک مقصد مزیت محسوب میشود. اگر ارجاعات از زمینههای متفاوت برسند، سیستم مجموعه متنوعتری از کانتکستها را برای مقصد میبیند و میتواند امتیاز قویتری بسازد. تمرکز بیش از حد بر یک عبارت کلی باعث میشود سیگنال محدودتر گردد.
پایداری بهتر از انفجار کوتاهمدت است. روند یکنواخت و مداوم ارجاعات معنادار نشانه طبیعی بودن میباشد و در وزندهی تأثیر دارد. در مقابل، کمپینهای دفعی (حتی اگر پرسر و صدا باشند) در نگاه تاریخچهای سیستم بهعنوان الگوی غیرطبیعی شناخته میشوند.
این فقط یکی از سیگنالهاست. پتنت تأکید میکند که امتیاز کانتکست یکی از چند عامل در رتبهبندی نهایی میباشد. بنابراین باید آن را یک ورودی مکمل دانست، نه جایگزین کامل سایر فاکتورها.
از آنجا که پتنت مثال عددی خاصی برای یک دامنه یا صنعت ارائه نکرده، ما نیز در همین حد باقی میمانیم و مثالها را بهصورت انتزاعی اما در چارچوب همان فرآیند مطرح میکنیم.
فرض کنید سندی درباره «چارچوبهای همزمانی توزیعشده» به منبعی درباره «پروتکل اجماع X» لینک میدهد. اگر در جمله قبل و بعد از لینک، واژههای نایابی مانند «Non-Byzantine quorum» و «liveness threshold» وجود داشته باشند، شناسه متنی ساختهشده از ترکیب همین دو عبارت تشکیل میشود. حالا اگر دهها سند مستقل در حوزههای مرتبط (با واژههای متمایز دیگری مانند «view-change latency» و «gossip fan-out») به همان مقصد لینک دهند، مجموعهای از شناسهها برای آن مقصد شکل میگیرد. از نگاه سیستم، این الگوی رخدادها (تعداد، تنوع و پایداری) ارتباط واقعی مقصد با موضوع را بسیار بهتر از انباشت لینکهای منویی یا تبلیغاتی نشان میدهد. این دقیقاً همان منطق «گروهبندی مراجع بر اساس کانتکست» و «رتبهدهی بر مبنای مجموعه کانتکستها» میباشد که در متن پتنت تشریح شده است.
در مقابل، تصور کنید مقصدی که بیشتر ارجاعاتش از فوترهای تکراری میآید؛ اطراف لینکها واژههای متمایز کمی دیده میشود، شناسهها محدودند و توزیعشان شبیه نسخههای کپیشده است. چنین مقصدی در منطق این پتنت بهصورت طبیعی سیگنال ضعیفتری از کانتکستها دریافت میکند، بدون آنکه نیاز به جریمه صریحی باشد؛ چون ماده اولیه سیگنال (یعنی همان واژههای نایاب) از اساس در آن وجود ندارد. این مورد نیز با همان استدلال و منطق اصلی پتنت سازگار است.
بیایید دقیقتر شویم، اما همچنان در مرز محتوای رسمی سند باقی بمانیم:

پتنت بهروشنی توضیح میدهد که دو بخش در چپ و راست لینک تحلیل میشوند. عرض دقیق این پنجره بهعنوان پارامتر سیستم در نظر گرفته شده است، بنابراین میتواند ثابت یا قابل تنظیم باشد. این انعطاف باعث میشود موتور جستجو بتواند برای زبانها یا سبکهای مختلف، عرض بهینه را انتخاب کند.
نایاب بودن یک واژه نسبت به کل پیکره سنجیده میشود، نه صرفاً در یک صفحه. بنابراین هرچه موضوع تخصصیتر و واژگان دقیقتر باشند، احتمال ورودشان به شناسهٔ متن بیشتر میشود. واژههای عمومیتر معمولاً کنار گذاشته میشوند، چون تمایز معنایی ایجاد نمیکنند.
در توضیحات پتنت آمده که شناسه میتواند بر پایه همان دو واژه انتخابشده ساخته شود و روشهایی مانند هشسازی برای تبدیل ترکیب به یک شناسه فشرده پیشنهاد شده است. هدف، ایجاد ویژگی متمایز برای کانتکست است، نه بازتولید کامل متن.
مکانیزم اصلی بر پایه تعداد، تنوع و توزیع تاریخی شناسهها برای هر مقصد است. سپس این امتیاز با دیگر عوامل در رتبهبندی نهایی ترکیب میشود. پتنت بهصراحت اشاره میکند که این امتیاز تنها یکی از چند عامل اصلی رتبهبندی است.
سیستم میتواند ارجاعات را بر اساس شباهت شناسهها خوشهبندی کند و بر پایه همین گروهها رتبه دهد. این مرحله همانجایی است که الگوهای مصنوعی، که معمولاً یکدست و همشکل هستند، در وزندهی گروهها ضعیفتر عمل میکنند.
اگر بخواهیم صرفاً با همان پتنت و بدون افزودن چیزی از بیرون به خودمان، بهعنوان متخصص سئو، آینه بدهیم، چند نتیجه اجرایی روشن میشود:
محیط لینک را جدی بگیر: لینکی که در پاراگرافی با واژههای دقیق و توضیحدهنده قرار دارد، بهصورت طبیعی سیگنال قویتری ایجاد میکند؛ زیرا مواد اولیه شناسه (همان واژههای نایاب) در اطرافش حضور دارند. لینکهای منویی یا فوتر معمولاً چنین دادههایی را فراهم نمیکنند.
برای یک مقصد، تنوع طبیعی کانتکستها سودمند است: یک صفحه که از منابع مختلف و با واژگان متمایز لینک میگیرد، مجموعهای سالمتر از شناسهها بهدست میآورد. تکرار افراطی یک انکرتکست یا استفاده یکنواخت از قالبهای مشابه، در این منطق سیگنال محدود و ضعیفی تولید میکند.
ریتم زمانی اهمیت دارد: توزیع پایدار ارجاعات معنادار در طول زمان، نشانه طبیعی بودن است. در مقابل، جهشهای کوتاهمدت و ناگهانی معمولاً از نگاه سیستم رفتار غیرطبیعی تلقی میشوند و وزن کمتری در امتیاز نهایی میگیرند.
پتنت US8577893B1 یک جابهجایی معنایی در سنجش لینک رقم میزند: لینک نه صرفاً «رأی»، بلکه «شاهد متنی» است. سیستم بهجای اتکای کور به انکرتکست یا تعداد ارجاعات، به واژههای نایاب دو سوی لینک نگاه میکند، از آنها «شناسه متن» میسازد و امتیاز مقصد را بر پایه تعداد، تنوع و توزیع زمانی این شناسهها تعدیل میکند. نتیجه، بازگشت معنا به لینک است؛ معنایی که از متن پیرامون میآید، نه از ترفندهای شمارشی.
دستاورد کلیدی این رویکرد، مقاومت ذاتی در برابر الگوهای مصنوعی است. جهشهای همزمان و یکنواخت در شناسهها وزن میبازند؛ الگوهای پایدار و متنوع امتیاز میگیرند. لینکهای منویی و فوتر (بهدلیل فقر واژگان متمایز در اطرافشان) بهصورت طبیعی سیگنال ضعیفتری تولید میکنند؛ در مقابل، ارجاعاتی که در جملههای توضیحی و تخصصی جا گرفتهاند، شناسههای ارزشمند میسازند و وزن مقصد را بالا میبرند.
از منظر اجرا (همچنان در متن پتنت)، همهچیز در سه حرکت خلاصه میشود:
استخراج واژههای نایاب از پنجرههای چپ و راست لینک؛
ساخت شناسه متن از ترکیب همان واژهها؛
امتیازدهی مقصد با اتکا به شمار، تنوع و تاریخچه این شناسهها و سپس ادغام آن با سایر عوامل رتبهبندی.
هیچ «جریمه صریح» لازم نیست؛ خود نبود بافت معنادار، سیگنال را کماثر میکند.
بنابراین پیام نهایی روشن است: اگر لینک حامل بافت مشخص و متمایز نباشد، در منطق این پتنت «وزن گفتنی» ندارد. ارزش لینک از دل متن اطرافش سنجیده میشود؛ متنی که باید آنقدر دقیق و خاص باشد تا شناسه معتبر بسازد و در طول زمان، بهشکل طبیعی تکرار شود. این همان ریلگذاری است که پتنت به الگوریتم میدهد: رتبهبندی بر پایه کانتکست ارجاع، نه صرف ارجاع.
تهیه شده توسط تیم تخصصی سئو سید احسان خسروی (مدیر، متخصص و مشاور استراتژیک سئو)