حسین بیگی
حسین بیگی
خواندن ۳ دقیقه·۶ ماه پیش

آیا گوگل در هربار کرالینگ فایل Robots.txt را بررسی می‌کند؟


پاسخ کوتاه: بله؛ در هر بار فرایند کرالینگ باید وضعیت فایل Robots.txt وبسایت شما برای گوگل روشن باشد.

💡پاسخ بلند:

در هر باری که گوگل می‌خواهد فرایند کرالینگ وبسایت شما را شروع کند، به حافظه خود سر زده و آخرین وضعیت فایل Robots.txt را بررسی می‌کند.

حال اگر وضعیت این فایل روشن باشد (در واقع سرور وبسایت شما استاتوس کد 200 یا 404 برگردانده باشد) و بیشتر از 24 ساعت از آخرین بررسی آن توسط گوگل نگذشته باشد، گوگل مطابق با دستورات موجود در این فایل، فرایند کرالینگ سایت شما را آغاز می‌کند.

‼️توجه: وبسایت شما الزما به یک فایل Robots.txt نیاز نخواهد داشت. (این به استراتژی شما بستگی دارد.) اما در هر صورت، سرور شما در پاسخ به ریکوئستی که بات گوگل برای بررسی این فایل به سمت آن ارسال می‌کند، باید رسپانس کد موفقیت آمیز (successful response) به آن برگرداند. در این خصوص استاتوس کدهای 200، 403، 404 و 410 همگی رسپانس کدهای موفقیت آمیز تلقی می‌شوند.


اما اگر بیش از 24 ساعت از آخرین نسخه بررسی شده فایل Robots.txt گذشته باشد و یا سرور وبسایت شما در پاسخ به درخواست گوگل برای بررسی این فایل، رسپانس کد موفقیت آمیزی برنگرداند (رسپانس‌ کدهایی که نشان دهنده عدم موفقیت گوگل در بررسی این فایل هستند عبارتند از 429 و رنج 5XX)، گوگل مجددا برای بررسی فایل Robots.txt درخواست دیگری به سمت سرور شما ارسال می‌کند.

حال اگر نتیجه‌ی درخواست صادر شده، موفقیت آمیز باشد (Successful robots.txt responses) گوگل طبق دستورات موجود در این نسخه از فایل، فرایند کرالینگ را آغاز می‌کند. اما اگر نتیجه این درخواست موفقیت آمیز نباشد، فرایند کرالینگ سایت شما به مدت 12 ساعت متوقف خواهد شد...

اما در این فاصله 12 ساعته، گوگل به‌طور متناوب درخواست بررسی فایل روبوتز را به سرور شما صادر می‌کند. حال در اولین باری که پاسخ موفقیت آمیزی دریافت کرد، فرایند کرالینگ را آغاز می‌کند.


فرض کنید 12 ساعت نیز طی شد و سرور شما پاسخ روشنی به درخواست گوگل صادر نکرد، حال چه اتفاقی می‌افتد؟ آیا فرایند کرالینگ به‌طور کامل متوقف می‌شود؟

🟢 خیر؛ با وجود هزینه بر بودن فرایند کرالینگ، تمایل اصلی گوگل، کرال کردن وبسایت شما است.

بنابراین در این مرحله رویکرد گوگل این است که پس از پایان بازه زمانی 12 ساعته، از شروع ساعت 13 تا پایان روز سی‌ام، مطابق با آخرین نسخه‌ی فایل Robots.txt که در حافظه خود دارد، فرایند کرالینگ را ادامه دهد.

البته در این بازه زمانی، گوگل متناوبا درخواست‌های خود را برای بررسی فایل Robots.txt به سرور شما ارسال می‌کند و در اولین باری که پاسخ مثبتی دریافت کند، مطابق با آن نسخه، کرالینگ را ادامه می‌دهد.

فرض کنید گوگل 30 روز برای مشاهده فایل Robots.txt به سمت سرور سایت شما ریکوئست ارسال کرده، اما پاسخ مثبتی دریافت نکرده؛ حال بعد از 30 روز چه اتفاقی می‌افتد؟

در این حال اگر صفحه نخست وبسایت شما در دسترس باشد، گوگل با این فرض که اصلا از ابتدا هیچ فایلی موجود نبوده، کل وبسایت شما را کرال می‌کند (مثل اینکه شما هیچ محدودیتی برای کرالرها تعیین نکرده‌اید.) با این حال باز هم برای بررسی فایل Robots.txt، به سرور شما ریکوئست ارسال می‌کند.

اما اگر صفحه نخست سایت شما در دسترس نباشد (به‌طور مثال صفحه نخست سایت شما ارور 500 بدهد یا ناموجود شده باشد و استاتوس کد 404 برگرداند)، گوگل فرایند کرالینگ را در وبسایت شما متوقف می‌کند.

حرف آخر

اگر مایل هستید که هر روز پست‌های جدید و جالبی از این دست رو مطالعه کنید، پیشنهاد می‌کنم کانال من رو توی تلگرام دنبال کنید. 👇

🆔 @seoptimizer

سئوسئوی تکنیکالآموزش سئوگوگلseo
من حسین بیگی هستم. از سال ۱۳۹۴ در زمینه‌‌های سئو و تولید محتوا فعالم و قصد دارم تا از طریق ویرگول آموخته‌ها و دانسته‌های خودم رو با دیگران به اشتراک بذارم.
شاید از این پست‌ها خوشتان بیاید