نشخوار کردن چیست و از کی گوگل نشخوار می کند

نشخوار در حیوانات شاید از این جهت شبیه آدامس جویدن انسان ها باشد که در هر دو مورد چیزی به مدت طولانی توسط آرواره ها جویده می شود. حیوانات در این حالت معمولا آرام یک جایی می خوابند و به صورت کاملا آهسته غذایی را که از معده دوباره به دهان خود آورده اند را می جوند. جویدن غذایی که یک بار قبلا بلعیده شده در بین حیواناتی چون گاو و گوسفند رایج است. عمل دوباره جویدن غذا در حیواناتی مثل گاو ممکن است ۸ ساعت در روز طول بکشد. برگرفته از: خبرگزاری اطلس.

مراحل نشخوار کردن در نشخوار کنندگان مثل گاو و...
مراحل نشخوار کردن در نشخوار کنندگان مثل گاو و...


شما باورتان می شود تعریف بالا کاملا برای گوگل هم مصداق پیدا می کند.

گوگل اوایل این سبک و سیاق را نداشت.

بلکه الگوریتمش به این شکل بود که اولین خزنده ای که یک صفحه را fetch می کرد (ببخشید واقعا قصدم حفظ پارسی است ولی واقعا بعضی کلمات نمونه فارسی ندارند ولی اگر اصرار به فارسی کردن fetch باشد می شود رفتن و آوردن و متفاوت است از خزش تنها ) آن را به نزدیکترین سرور می داد.

نزدیکترین سرور کلمات کلیدی را استخراج می کرد و رکودهای مرتبط از صفحه را به سرور های مرتبط به کلمات کلیدی ارسال می کرد.

سروری که اطلاعات را می گرفت آنالیز می کرد، ذخیره می کرد و رتبه بندی یا serp خودش را اعمال می کرد و یک کپی از نتیجه آنالیز به همراه مشخصات رکود را به سرور مرکزی می فرستاد این زمان در بدترین حالت (برای کندترین سرور) دو ساعت طول میکشید ولی معمولا زیر 5 دقیقه بود.

سرور مرکزی یک ابررایانه بیسایر عظیم می باشد که حدود یک روز تا یک هفته طول می کشید که فرصت پیدا کند نتایج را با میلیونها میلیون از داده های موجود تطبیق بدهد و رتبه serp نهایی ان را مشخص کند. و بعد از ثبت نهایی نتیجه را برای اعمال منطقه ای به تمام سرورها اعلام کند.

که نتیجه اش این می شد که بر حسب منطقه بعد از یک هفته تو صفحه نتیجه می موندی یا به صفحه بعد یا قبلش می رفتی یا حتی اسپم شناخته می شدی و....

این یعنی چی؟!!!

یعنی اینکه بعد از یک هفته اگر شما یک جمله از متن را تو گوگل سرچ می زدی سایت شما را پیدا می کرد.

این مربوط به زمانی بود که در ثانیه تا چند ده هزار کوئری جدید وارد سرورهای گوگل می شد و آن را داشته باشید تا به سبک جدیدش در نشخوار برسیم.

امروزه روز شرایط عوض شده و به جای چند ده هزار صفحه جدید(~=متفاوت) چند صد هزار صفحه جدید وارد دیتابیس می شود و بجای تطبیق با میلیونها میلیون داده بایست با میلیاردها صفحه مطابقت میشد

و دیگه سرور مرکزی این در توانش نبود

پس تغییری که ایجاد شد یک واسط رایانه ای اضافه شد و هدف از ان استفاده از اوقات idle هزاران سرور تشکیل دهنده شبکه ابری گوگل برای کمک به انجام محاسبات به سرور مرکزی بود

و بجای یک هفته تا ماهها (که خوش بینانه آن 3 ماه است و ممکن است 6 ماه حتی بیشتر هم طول بکشد تا سرور مرکزی گوگل اطلاعات را نشخوار کند

چطور میتوانید به این موضوع پی ببرید

یکی از مطالب اخیرا ایندکس شده خود در چند هفته اخیر را باز کنید و یک جمله نسبتا بلند که مطمئن هستید فقط در سایت شما وجود دارد را در گوگل سرچ کنید.

احتمالا تعجب می کنید که چرا در نتایج گوگل دیده نمی شود در حالیکه مطمئنید صفحه ایندکس شده و روزی چند صد کلیک خور هم دارد

این یعنی هنوز گوگل به نشخوار صفحه مورد نظر شما نرسیده

حالا اگر همین تست را بر روی صفحات خیلی قدیمی خود انجام دهید می بینید که هیچ جمله ای نیست که در نتایج جستجو گوگل صفحه متناظر آن را پیدا نکند.

بله گوگل هم به جمع نشخوار کنندگان پیوسته است.

آنچه به شرح آن پرداختیم نه سیستم بازیابی IR که بخشی از آن سیستم است و انشالله در زمان خودش سیستم IR را کاملا موشکافی می کنم.

منتظر ظهور (𝓞𝔍𝓞).