در این مطلب یه صورت ریز و کاربردی و کاملا نکته محور، نکاتی درباره فایل روبوتس مینویسم براتون. این نکات تجربه هستن و همینطور حاصل مطالعه... برای کسی که میخواد تازه بفهمه فایل روبوتس چیه و به چه دردی میخوره، کارآمد نیست ولی برای کسی که میخواد ریزه کاریا رو ببینه و نکات خیلی تخصصی رو بدونه، کارآمده. خب بریم تا به صورت نکته بگیم چی به چیه...
نکته1 : باید لینکهایی که با استفاده از فایل robots.txt از ایندکسشدن منع کردهاید، توسط ajax مخفی کنید. در کد سایت نباید بخشهایی مانند “a href =” … ” برای لینکهای داخل صفحه (صفحهای که از ایندکسشدن منع شده است) وجود داشته باشد. خود این اسکریپتهای ajax نیز باید از ایندکسشدن منع شوند.
نکته2 : اینکه فقط به چند بات خاص اجازه خزیدن در صفحات سایت را بدهیم، به حفظ پهنای باند کمک میکند.
نکته3 : وقتی از یک اسلش (/) بعد از یک دستور یا فولدر استفاده میکنید، به این معنی است که txt هر دستور یا فولدر یا چیز دیگری که داخل آن باشد را بلاک میکند. دقت کنید که فایلهای CSSو کدهای جاوا اسکریپت که محتوای غنی شمارا ارائه میکنند در فایل txtبلوک نشده باشند، در غیر این صورت مانع پیشنمایش خلاصه بخشها میشوند.
نکته4 : اگر دو بخش user-agent دارید، که یکی برای همه باتها و یکی برای یک بات خاص مثلاً باتهای گوگل است، باید در نظر داشته باشید که خزندههای باتهای گوگل تنها دستورهای داخل بخش user-agent مربوط به باتهای گوگل را دنبال خواهند کرد و به دستورهای بخش کلی که با وایلدکارت (*) مشخصشده است عمل نمیکنند. در این حالت، شاید مجبور میشوید دستورهای disallow که در بخش user-agentکلی آوردهاید را در بخش باتهای گوگل هم دوباره بنویسید.
نکته5 : نباید هیچ URL بلاک شده در فایلrobots.txt را در XML نقشه سایت خود قرار دهید. این اتفاق بهویژه اگر از چند ابزار برای سایت فایل robots.txt وXML نقشه سایت استفاده میکنید ممکن است رخ دهد. در چنین مواردی شاید مجبور شوید خودتان همه آنها را بهدقت بررسی کنید و ببینید آیا هیچکدام از URL های Block شده در نقشه سایت هم هستند یا خیر. اگر سایت خود را در اکانتGoogle Webmaster Tools ثبت و تأیید کرده و نقشه سایتتان را هم در آن وارد کرده باشید، میتوانید این مسئله را در اکانت خود بررسی کنید.
نکته6 : فایل روبات تی ایکس تی، برای منع دسترسی به پوشه ها و فایل ها و دایرکتوری هایی هستند که در هاست وجود داره. برای ادرس هایی مثل تگ ها و کته گوری ها که از طریق دیتابیس ایجاد میشن و پوشه ای در هاست ندارند، نمی توان از این فایل استفاده کرد و باید از متاتگ ها کمک گرفت.