در مقاله قبلی درباره اینکه robot.txt چیست و چه کاربردی دارد مطالبی را آموختیم، اما این همه ی ماجرا نیست. روش کار و نحوه ساختن فایل robot.txt جذابترین و کارآمدترین قسمت آشنایی با آن است.پس سریعتر به اصل ماجرا میپردازیم.
قبل از همه چیز باید بدانید که robot.txt دارای 4 دستور کلی است؛ User-agent، Disallow Allow و Sitemap. اما هر کدام از این دستورات برای چه منظوری استفاده می شود.
این دستور را زمانی در فایل robot.txt مینویسیم که بخواهیم یک یا چند ربات از ربات های گوگل را هدف قرار دهیم و به دو صورت استفاده میشود.
• اگر هدفمان دستور مشترک به تمامی ربات های کرالرهاست، از علامت ستاره (*)بعد از User-agent میتوان استفاده کرد. همانند عبارت زیر:
*:User-agent
اگر بخواهیم دستور بالا را تفسیر کنیم، میتوان گفت که تمامی دستورات بعد از این عبارت برای همه ربات ها یکسان باشد.
• حالت دوم زمانی است که بخواهیم یکی از ربات های گوگل را مورد هدف قرار داده و دستور خاصی را به آن بدهیم. به مثال زیر توجه کنید:
User-agent: Googlebot
عبارت بالا به این معنی است که اجرای دستورات بعد از این عبارت فقط برای ربات گوگل الزامی است.
این عبارت زمانی استفاده میشود که دستور بدهیم تا آدرسهایی از رباتهای جستجو مخفی بماند.
به عنوان مثال اگر نمیخواهیم موتورهای جستجو، ویدیوهای وبسایت را ایندکس کنند، می توان تمام این ویدیوها را درون یک پوشه در هاست خود و دور از دسترس موتورهای جستجو قرار داد. اگر برای این کار تمام این ویدیوها را به درون فولدری به نام videos قرار داده باشیم. برای آنکه به گوگل بگویید که آنها را ایندکس نکند، از دستور زیر استفاده میکنیم:
* :User-agent
Disallow: /videos
علامت / بعداز Disallow به ربات گوگل دستور میدهد وارد پوشهای در root به نام videos شوی.
دو عبارت بالا در فایل robots.txt، به هیچ یک از رباتها اجازه ورود به فولدر ویدیوها را نمیدهد. همانطور که در قسمت قبلی اشاره شد، قسمت «User-agent: *» بیانگر این است که این دستور برای تمامی رباتهای جستجو باید اجرا شود.
و در نهایت Disallow: /photos بیانگر این است که ربات، اجازه ورود یا ایندکس پوشه ویدیوهای سایت را ندارد.
این دستور امکان مشاهده یک فایل، در فولدری که Disallowed شده را به ربات گوگل میدهد.
در مثال قبل دستوری را نوشتیم که به رباتهای گوگل، اجازه دسترسی به ویدیوی سایت را نمیداد.
حال تصور کنید درون این پوشه، ویدیویی به نام seo.mp4 وجود دارد که میخواهیم Googlebot آن را ایندکس کند. با استفاده از دستور زیر میتوان این کار را انجام داد:
* :User-agent
Disallow: /videos
Allow: /videos/seo.mp4
این دستور به این معناست که با وجود اینکه پوشه videos از دسترس رباتها خارج شده است، اما اجازه مشاهده و ایندکس فایل seo.mp4 را دارد.
به طورکلی برای دسترسی به sitemap چند راه وجود دارد. یکی از این راهها نوشتن آدرس فایل در robot.txt است.
Sitemap: https://example.com/sitemap.xml