پاسخ کوتاه: بله؛ در هر بار فرایند کرالینگ باید وضعیت فایل Robots.txt وبسایت شما برای گوگل روشن باشد.
💡پاسخ بلند:
در هر باری که گوگل میخواهد فرایند کرالینگ وبسایت شما را شروع کند، به حافظه خود سر زده و آخرین وضعیت فایل Robots.txt را بررسی میکند.
حال اگر وضعیت این فایل روشن باشد (در واقع سرور وبسایت شما استاتوس کد 200 یا 404 برگردانده باشد) و بیشتر از 24 ساعت از آخرین بررسی آن توسط گوگل نگذشته باشد، گوگل مطابق با دستورات موجود در این فایل، فرایند کرالینگ سایت شما را آغاز میکند.
‼️توجه: وبسایت شما الزما به یک فایل Robots.txt نیاز نخواهد داشت. (این به استراتژی شما بستگی دارد.) اما در هر صورت، سرور شما در پاسخ به ریکوئستی که بات گوگل برای بررسی این فایل به سمت آن ارسال میکند، باید رسپانس کد موفقیت آمیز (successful response) به آن برگرداند. در این خصوص استاتوس کدهای 200، 403، 404 و 410 همگی رسپانس کدهای موفقیت آمیز تلقی میشوند.
اما اگر بیش از 24 ساعت از آخرین نسخه بررسی شده فایل Robots.txt گذشته باشد و یا سرور وبسایت شما در پاسخ به درخواست گوگل برای بررسی این فایل، رسپانس کد موفقیت آمیزی برنگرداند (رسپانس کدهایی که نشان دهنده عدم موفقیت گوگل در بررسی این فایل هستند عبارتند از 429 و رنج 5XX)، گوگل مجددا برای بررسی فایل Robots.txt درخواست دیگری به سمت سرور شما ارسال میکند.
حال اگر نتیجهی درخواست صادر شده، موفقیت آمیز باشد (Successful robots.txt responses) گوگل طبق دستورات موجود در این نسخه از فایل، فرایند کرالینگ را آغاز میکند. اما اگر نتیجه این درخواست موفقیت آمیز نباشد، فرایند کرالینگ سایت شما به مدت 12 ساعت متوقف خواهد شد...
اما در این فاصله 12 ساعته، گوگل بهطور متناوب درخواست بررسی فایل روبوتز را به سرور شما صادر میکند. حال در اولین باری که پاسخ موفقیت آمیزی دریافت کرد، فرایند کرالینگ را آغاز میکند.
فرض کنید 12 ساعت نیز طی شد و سرور شما پاسخ روشنی به درخواست گوگل صادر نکرد، حال چه اتفاقی میافتد؟ آیا فرایند کرالینگ بهطور کامل متوقف میشود؟
🟢 خیر؛ با وجود هزینه بر بودن فرایند کرالینگ، تمایل اصلی گوگل، کرال کردن وبسایت شما است.
بنابراین در این مرحله رویکرد گوگل این است که پس از پایان بازه زمانی 12 ساعته، از شروع ساعت 13 تا پایان روز سیام، مطابق با آخرین نسخهی فایل Robots.txt که در حافظه خود دارد، فرایند کرالینگ را ادامه دهد.
البته در این بازه زمانی، گوگل متناوبا درخواستهای خود را برای بررسی فایل Robots.txt به سرور شما ارسال میکند و در اولین باری که پاسخ مثبتی دریافت کند، مطابق با آن نسخه، کرالینگ را ادامه میدهد.
فرض کنید گوگل 30 روز برای مشاهده فایل Robots.txt به سمت سرور سایت شما ریکوئست ارسال کرده، اما پاسخ مثبتی دریافت نکرده؛ حال بعد از 30 روز چه اتفاقی میافتد؟
در این حال اگر صفحه نخست وبسایت شما در دسترس باشد، گوگل با این فرض که اصلا از ابتدا هیچ فایلی موجود نبوده، کل وبسایت شما را کرال میکند (مثل اینکه شما هیچ محدودیتی برای کرالرها تعیین نکردهاید.) با این حال باز هم برای بررسی فایل Robots.txt، به سرور شما ریکوئست ارسال میکند.
اما اگر صفحه نخست سایت شما در دسترس نباشد (بهطور مثال صفحه نخست سایت شما ارور 500 بدهد یا ناموجود شده باشد و استاتوس کد 404 برگرداند)، گوگل فرایند کرالینگ را در وبسایت شما متوقف میکند.
حرف آخر
اگر مایل هستید که هر روز پستهای جدید و جالبی از این دست رو مطالعه کنید، پیشنهاد میکنم کانال من رو توی تلگرام دنبال کنید. 👇