
پتنت Predicting Site Quality با شناسه US9767157B2 فرآیندی را توضیح میدهد که در آن گوگل بدون نیاز به ارزیابی انسانی، برای هر وب سایت یک امتیاز کیفیت خودکار میسازد و آن را به صورت مستقیم وارد موتور رتبهبندی میکند. تاکید سند روی «سطح سایت» است؛ یعنی به جای تمرکز جداگانه روی صفحات، الگوی زبانی همه صفحات یک دامنه کنار هم دیده میشود و از شکل توزیع عبارتها در کل دامنه، تصویری از کیفیت آن ساخته میگردد. همین جابه جایی تمرکز از صفحه به سایت باعث میشود یک سیگنال پایدارتر و مقاوم تر برای رتبهبندی به دست آید؛ سیگنالی که به موتور جستجو کمک میکند منابع وابسته به یک دامنه را نسبت به رقبا بالاتر یا پایین تر بچیند.
در این پتنت، «امتیاز کیفیت سایت» یک خروجی عددی است که در مرحلهای جدا از رتبهبندی صفحه به دست میآید اما در نهایت به همان موتور رتبهبندی خوراک میدهد. این امتیاز نماینده یک قضاوت کلی درباره کیفیت زبانی و ساختاری محتوای سایت است، نه یک داوری موردی درباره یک آدرس مشخص. به بیان ساده، اگر صفحات یک دامنه در مجموع الگوی عبارتی نزدیک به الگوی سایتهای با کیفیت داشته باشند، امتیاز بالاتری میگیرند و بالعکس. این نگاه دامنه محور باعث میشود چند صفحه استثنایی نتوانند تصویر کلی سایت را به تنهایی جابه جا کنند.
هسته روش با چیزی شکل میگیرد که سند آن را «مدل عبارت» مینامد. مدل عبارت در واقع یک الگوی آماری است از رابطه میان حضور عبارتهای چندکلمهای در سایتها و کیفیت مرجع آن سایتها. برای ساخت این مدل، ابتدا باید مجموعهای از دامنهها داشته باشیم که امتیاز کیفیت آنها از قبل مشخص است. سپس از محتوای این دامنهها همه ترکیبهای دو تا پنج کلمهای استخراج میشود. به جای اینکه فقط شمارش خام انجام گردد، نسبت حضور هر عبارت در کل صفحات یک دامنه سنجیده میشود تا معلوم گردد آن عبارت چقدر در بافت واقعی محتوای آن سایت جا افتاده است. خروجی این مرحله یک فهرست بزرگ از عبارتهاست که برای هر کدام میتوان دید با چه نسبتهایی در دامنههای مختلف تکرار شدهاند و آن دامنهها چه امتیاز کیفیتی داشتهاند.
مدل عبارت با تکیه بر همین دادهها ساخته میشود: برای هر عبارت، بازههایی از نسبت حضور تعریف میشود و برای هر بازه، میانگین امتیاز کیفیت دامنههایی که در آن بازه قرار میگیرند، محاسبه میگردد. نتیجه یک یک مدل پیشبینی است که میگوید اگر یک عبارت با نسبتی مشخص در یک سایت دیده شود، انتظار میرود کیفیت آن سایت حول چه مقداری باشد. عبارتهایی که تقریباً در همه جا دیده میشوند و قدرت تفکیک ندارند کنار گذاشته میشوند تا مدل روی نشانه های زبانی موثر متمرکز بماند.
برای اینکه مدل عبارت قابل اتکاء شود باید داده آموزشی از دامنههایی فراهم باشد که امتیاز مرجع دارند. این امتیاز مرجع در سند به عنوان نقطه اتکاء برای یادگیری رابطه میان عبارت و کیفیت به کار میرود. با این امتیازات میتوان مشخص کرد کدام عبارتها در کدام دامنهها با کیفیت بالاتر همنشینی بیشتری دارند و کدام عبارتها عمدتا در سایتهای ضعیف دیده میشوند. دستهبندی نسبت حضور عبارتها کمک میکند اثر چند نمونه خارج از روال کم شود و مدل به سمت ارتباطهای پایدارتر همگرا گردد.
در این آموزش، چند تصمیم کلیدی گرفته میشود: تعیین حداقل آستانه برای اینکه یک عبارت اصلاً وارد مدل شود، تعیین تعداد بازهها برای نسبت حضور و شیوه محاسبه میانگین کیفیت در هر بازه. این تصمیمها به مدل امکان میدهند به جای آنکه به نوسانهای تصادفی حساس باشد، روابط کلی و تکرارپذیر میان زبان و کیفیت را به دام بیندازد.
یکی از گامهای مهم حذف عبارتهای کم اثر است. عبارتهایی که در سایتهای با کیفیت و کم کیفیت با الگوی مشابهی پخشاند، قدرت پیشبینی ندارند و فقط به مدل نویز اضافه میکنند. سند تاکید میکند که این عبارتها باید کنار گذاشته شوند تا وزن محاسبه روی نشانههایی بماند که واقعاً به تشخیص کیفیت کمک میکنند. این پالایش باعث میشود مدل نهایی جمع و جورتر، سریعتر و دقیقتر عمل کند.
وقتی دامنهای وارد سیستم میشود که تاکنون امتیاز نگرفته است، همان روال استخراج عبارتها روی محتوای آن اجرا میشود. تمام ترکیبهای دو تا پنج کلمهای شناسایی و میزان حضور هر کدام در صفحات دامنه محاسبه میگردد. سپس برای هر عبارت، با مراجعه به مدل عبارت، یک مقدار کیفیت مورد انتظار خوانده میشود؛ مقداری که به نسبت حضور فعلی آن عبارت در سایت وابسته است.
مجموعه این مقادیر در نهایت باید به یک امتیاز واحد برای دامنه تبدیل گردد. سند چند راه استاندارد برای این تبدیل را مجاز میداند؛ مثلا میانگین ساده، میانگین وزندار یا استفاده از آمارههایی مثل میانه. انتخاب تابع تجمیع روی رفتار مدل اثر میگذارد؛ میانگین ساده حساس تر است، در حالی که میانه جلوی اثرگذاری شدید چند مقدار افراطی را میگیرد.
در این میان، شرط پوشش هم تعریف شده است. اگر در سایت تازه تعداد کافی از عبارتهای حاضر در مدل یافت نشود یا توزیع آنها بسیار کم باشد، سیستم پیشبینی را انجام نمیدهد. هدف از این شرط جلوگیری از تولید امتیاز بر پایه داده ناکافی است. به عبارت دیگر، اگر نشانههای زبانی کافی برای قیاس با مدل وجود نداشته باشد، بهتر است خروجی تولید نشود تا بعد از افزایش محتوا و اطلاعات، پیشبینی به شکل معنادار انجام گیرد.
سند اشاره میکند که چند عبارت بسیار پرتکرار میتوانند در صورت عدم کنترل، امتیاز سایت را بی دلیل به سمت خود بکشند. برای جلوگیری از این حالت، فرآیند هموارسازی در نظر گرفته میشود. هموارسازی با کاهش تدریجی وزن عبارتهایی که بیش از حد غالب میشوند باعث تعادل در اثرگذاری میگردد. راهکارهای هموارسازی میتواند به صورت ضریبهای کاهنده روی وزنها اعمال شود یا بر پایه تابعهایی که رشد تاثیر را با نزدیک شدن به سقف محدود میکنند طراحی گردد. هدف مشترک همه این روشها یک چیز است: مدل باید به جای آنکه گروگان چند عبارت باشد، تصویر جمعی و توزیعی زبان سایت را نشان دهد.
وزن دهی علاوه بر هموارسازی، کارکرد دیگری هم دارد. میتوان وزن عبارتها را متناسب با فاصله آنها از حالت خنثی تنظیم کرد. هر چه یک عبارت در تفکیک سایتهای خوب و ضعیف نقش بیشتری داشته باشد، وزن بالاتری میگیرد. همچنین میتوان وزن را به اتکاء اعتماد به اندازه گیری حضور آن عبارت در سایت تازه تعیین کرد؛ مثلا اگر یک عبارت در سایت جدید در صفحات کافی مشاهده شده باشد، وزن برآورد کیفیت آن عبارت معتبرتر است.

پس از آنکه برای هر عبارت یک مقدار کیفیت از مدل خوانده شد، باید همهی این مقادیر به یک عدد واحد تبدیل شوند. این تبدیل جایی است که سیاستهای هموارسازی و وزندهی وارد میدان میشوند. اگر میانگین ساده بهکار رود، همهی عبارتهای باقیمانده سهمی برابر در نتیجه دارند. اگر میانگین وزندار استفاده شود، عبارتهایی که قدرت تمایز بالاتری دارند یا با اعتماد بیشتری در سایت دیده شدهاند سهم بیشتری میگیرند. اگر میانه یا روشهای مقاوم به مقادیر افراطی در نظر گرفته شود، اثر چند مورد خارج از روال کاهش مییابد. سند دستِ تیم پیادهسازی را باز میگذارد تا با توجه به اهداف پایداری، سرعت و حساسیت، روش مناسب را انتخاب کند.
نکتهی مهم این است که تجمیع فقط یک عملیات عددی ساده نیست، بلکه طراحی آن مستقیماً بر کیفیت خروجی اثر میگذارد. اگر تجمیع بیش از حد حساس باشد، امتیاز سایت با کوچکترین تغییرات زبانی جهش میکند و سیگنال ناپایدار میشود. اگر بیش از حد محافظهکار باشد، تفاوتهای واقعی میان دامنهها محو میگردد. به همین دلیل هموارسازی و انتخاب تابع مناسب باید با دقت و آزمون همراه باشد.
سند تصریح میکند که پیشبینی باید زمانی تولید شود که تعداد کافی از عبارتهای مدل در سایت تازه مشاهده شده باشد. این شرط از تولید امتیاز بر پایهی نمونههای بسیار کم جلوگیری میکند و احتمال قضاوتهای اشتباه را پایین میآورد. شرطهای حداقلی میتواند شامل حداقل تعداد عبارتهای مشترک با مدل، حداقل تعداد صفحات پیمایششده، یا حداقل پوشش محتوایی باشد. تا زمانی که این آستانهها برآورده نشدهاند، بهتر است سیستم امتیازی ندهد تا بعد از گسترش محتوای دامنه، پیشبینی دقیقتری فراهم شود.
امتیاز نهایی که برای دامنه محاسبه میشود بهصورت مستقیم به موتور رتبهبندی داده میشود تا در کنار سیگنالهای دیگر در چیدمان نتایج اثر بگذارد. سند اجازه میدهد این امتیاز به تنهایی هم برای تصمیمگیریهای اولیه به کار رود، به ویژه در مواردی که سایر سیگنالها هنوز جمع نشدهاند یا سایت تازه وارد است. در عمل، این امتیاز میتواند بهعنوان یک ضریب یا عامل تعدیل روی امتیازهای برگرفته از ارتباط و دیگر معیارها اعمال شود تا جایگاه نهایی منابع وابسته به آن دامنه تنظیم گردد.
این اتصال مستقیم دو پیامد فوری دارد. نخست، سرعت واکنش سیستم به تفاوتهای دامنهای بالا میرود، چون نیازی به انباشت طولانی دادههای رفتاری برای تشخیص کیفیت نیست. دوم، ثبات نتایج افزایش مییابد، چون سیگنال دامنهمحور کمتر از سیگنالهای صفحهای دچار نوسانهای کوتاهمدت میشود.
برای ملموستر شدن ماجرا، فرض کنید دامنهای که قبلاً امتیاز گرفتهایم در توزیع عبارتهایش الگوی مشخصی نشان میدهد؛ مثلاً ترکیبهای چندکلمهای موضوعی ویژه در آن با شدتی منظم و قابل پیشبینی دیده میشوند. مدل عبارت این رابطه را ثبت میکند و برای آن عبارتها محدودههایی از حضور زبانی میسازد که هر کدام یک کیفیت مورد انتظار دارند.
حالا دامنهی تازهای ظاهر میشود که در همان موضوع مینویسد. اگر توزیع عبارتهایش از نظر شدت و پراکندگی به محدودههای مرتبط با کیفیت بالا نزدیک باشد، مدل برای هر عبارت امتیاز بالاتری میخواند و تجمیع این امتیازها عدد نهایی را رو به بالا میبرد. اگر همان دامنهی تازه توزیعی شلخته، نامتناسب یا شبیه سایتهای مرجع ضعیف نشان دهد، مدل امتیازهای پایینتری برمیگرداند و نتیجهی کلی پایین میآید. در هیچکدام از این دو حالت نیازی نیست یک صفحهی خاص مثال زده شود؛ آنچه میچربد تصویر دامنهای زبان است.
عبارتهایی هستند که تقریباً در همهی متون ظاهر میشوند و تفاوتی میان سایتهای قوی و ضعیف ایجاد نمیکنند. حضور این عبارتها اگر به مدل راه پیدا کند، خروجی را کدر مینماید. سند بر حذف این دسته تأکید دارد تا فقط نشانههایی در مدل بمانند که واقعاً قدرت جداسازی دارند.
کنار گذاشتن عبارتهای خنثی دو سود دارد: یکی کاهش نویز، دیگری تمرکز محاسبات روی بخشهایی از زبان که حامل اطلاعات دربارهی کیفیتاند. با این کار، وزن محاسبه روی سیگنالهای پرمعنا میافتد و نتیجه شفافتر میشود.
گاهی یک سایت ممکن است به دلایل موقتی چند عبارت را بیش از حد به کار ببرد. اگر مدل بدون کنترل وزن، صرفاً از میانگین ساده استفاده کند، این جهشهای زبانی میتواند امتیاز را بیجهت تغییر دهد. هموارسازی در چنین شرایطی نقش ضربهگیر را بازی میکند. با کاهش شیب تأثیر عبارتهایی که سهمشان از حدی بالاتر میرود، مدل اجازه نمیدهد یک خوشهی کوچک از تکرارها تصویر کلی را مصادره کند. هدف این است که پیشبینی بهجای واکنش به برآمدگیهای مقطعی، همراه با روند کلی توزیع عبارتها حرکت کند.
سند شرط میگذارد که اگر مدل نتواند تعداد کافی از عبارتهای خودش را در سایت تازه بیابد، پیشبینی تولید نشود. دلیل روشن است: قیاس بدون نقاط مشترک کافی قابل اتکاء نیست. این شرط به ویژه دربارهی دامنههایی با تعداد صفحهی کم یا محتوای خیلی جدید صدق میکند. در این موارد بهتر است سیستم صبر کند تا محتوای بیشتری در دسترس قرار بگیرد و سپس با پوشش بهتر، پیشبینی را انجام دهد.
پس از محاسبه، امتیاز کیفیت وارد موتور رتبهبندی میشود و به عنوان یک سیگنال مستقل روی چیدمان نتایج اثر میگذارد. ممکن است این سیگنال نقش ضریب اصلاحی روی امتیازهای حاصل از ارتباط موضوعی یا دیگر معیارها را بازی کند، یا بهعنوان یکی از ورودیهای اصلی ترکیب شود. نکتهی مهم این است که چون این امتیاز در سطح سایت محاسبه میشود، نتایج مرتبط با همان دامنه به صورت هماهنگتر تحت تأثیر قرار میگیرند. اگر کیفیت دامنه بالا پیشبینی شده باشد، منابعش شانس بیشتری برای قرار گرفتن در جایگاههای بهتر پیدا میکنند و برعکس.
آنچه این پتنت ارائه میکند یک چرخه روشن است: آموزش مدل عبارت بر پایه دامنههایی که امتیاز مرجع دارند، پالایش نشانههای کم اثر، پیشبینی کیفیت برای دامنههای تازه با تکیه بر الگوی زبانی، هموارسازی برای جلوگیری از سلطه عبارتهای غالب، تجمیع امتیازهای عبارتی به یک امتیاز واحد و در نهایت تزریق مستقیم این امتیاز به موتور رتبهبندی.
همه چیز حول زبان و توزیع آن در سطح سایت میچرخد. به همین دلیل، کیفیت دامنه صرفاً با چند صفحه نمونه بالا یا پایین نمیشود؛ بلکه با ثبات الگوی زبانی در سراسر دامنه شکل میگیرد و به صورت یک سیگنال مستقل در چیدمان نتایج نقش بازی میکند.
تهیه شده توسط تیم تخصصی سئو سید احسان خسروی (مدیر، متخصص و مشاور استراتژیک سئو)