پریا نجفلو
پریا نجفلو
خواندن ۲ دقیقه·۳ سال پیش

دستورات مورد استفاده در robot.txt

در مقاله قبلی درباره اینکه robot.txt چیست و چه کاربردی دارد مطالبی را آموختیم، اما این همه ی ماجرا نیست. روش کار و نحوه ساختن فایل robot.txt جذابترین و کارآمدترین قسمت آشنایی با آن است.پس سریع‌تر به اصل ماجرا میپردازیم.

قبل از همه چیز باید بدانید که robot.txt دارای 4 دستور کلی است؛ User-agent، Disallow Allow و Sitemap. اما هر کدام از این دستورات برای چه منظوری استفاده می شود.

۱.User-agent

این دستور را زمانی در فایل robot.txt مینویسیم که بخواهیم یک یا چند ربات از ربات های گوگل را هدف قرار دهیم و به دو صورت استفاده میشود.

• اگر هدفمان دستور مشترک به تمامی ربات های کرالرهاست، از علامت ستاره (*)بعد از User-agent می‌توان استفاده کرد. همانند عبارت زیر:

  *:User-agent


اگر بخواهیم دستور بالا را تفسیر کنیم، میتوان گفت که تمامی دستورات بعد از این عبارت برای همه ربات ها یکسان باشد.

• حالت دوم زمانی است که بخواهیم یکی از ربات های گوگل را مورد هدف قرار داده و دستور خاصی را به آن بدهیم. به مثال زیر توجه کنید:

User-agent: Googlebot


عبارت بالا به این معنی است که اجرای دستورات بعد از این عبارت فقط برای ربات گوگل الزامی است.


۲. Disallow


این عبارت زمانی استفاده می‌شود که دستور بدهیم تا آدرس‌هایی از ربات‌های جستجو مخفی بماند.


به عنوان مثال اگر نمی‌خواهیم موتورهای جستجو، ویدیوهای وب‌سایت‌ را ایندکس کنند، می توان تمام این ویدیوها را درون یک پوشه در هاست خود و دور از دسترس موتورهای جستجو قرار داد. اگر برای این کار تمام این ویدیوها را به درون فولدری به نام  videos قرار داده باشیم. برای آنکه به گوگل بگویید که آن‌ها را ایندکس نکند، از دستور زیر استفاده میکنیم:

* :User-agent

Disallow: /videos

علامت / بعداز Disallow به ربات گوگل دستور می‌دهد وارد پوشه‌ای در root به نام videos شوی.

دو عبارت بالا در فایل robots.txt، به هیچ یک از ربات‌ها اجازه ورود به فولدر ویدیوها را نمی‌دهد. همانطور که در قسمت قبلی اشاره شد،  قسمت «User-agent: *» بیانگر این است که این دستور برای تمامی ربات‌های جستجو باید اجرا شود.

و در نهایت Disallow: /photos  بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه ویدیوهای سایت را ندارد.


۳. Allow

این دستور امکان مشاهده یک فایل، در فولدری که Disallowed شده را به ربات گوگل می‌دهد.

در مثال قبل دستوری را نوشتیم که به ربات‌های گوگل، اجازه دسترسی به ویدیوی سایت را نمی‌داد.

حال تصور کنید درون این پوشه‌، ویدیویی به نام seo.mp4 وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور زیر می‌توان این کار را انجام داد:

* :User-agent

Disallow: /videos

Allow: /videos/seo.mp4

این دستور به این معناست که با وجود اینکه پوشه videos از دسترس ربات‌ها خارج شده است، اما اجازه مشاهده و ایندکس فایل seo.mp4 را دارد.


۴. sitemap

به طورکلی برای دسترسی به sitemap چند راه وجود دارد. یکی از این راه‌ها نوشتن آدرس فایل در robot.txt است.


Sitemap: https://example.com/sitemap.xml




آزادی_دانشانتشار_دانشseolabسئولب
شاید از این پست‌ها خوشتان بیاید