ماموریت موتورهای جستجو فهرست بندی کل اینترنت است و آنها باید این کار را سریع و کارآمد انجام دهند. اندازه و مقیاس کل اینترنت عظیم است. چند وب سایت و چند صفحه وجود دارد؟ در سال 2008، گوگل به نقطه عطفی از 1 تریلیون صفحه در اینترنت رسید. تا سال 2013، گوگل حدود 30 تریلیون صفحه را خزیده بود. کمتر از 4 سال بعد، گوگل از 130 تریلیون صفحه خبر داشت. سرعت رشد خیره کننده است و کشف همه این صفحات کار کوچکی نیست.
اگر گوگل در خزیدن یا فهرست کردن سایت شما مشکل داشته باشد، هرگز وارد موتور جستجو نخواهد شد. درک اینکه چگونه گوگل تمام وب سایت های موجود در اینترنت را خزیده و فهرست می کند برای تلاش های سئوی شما بسیار مهم است.
خزیدن به دنبال کردن پیوندهای یک صفحه به صفحات جدید، و ادامه یافتن و دنبال کردن پیوندها در صفحات جدید به سایر صفحات جدید اشاره دارد.
خزنده وب یک برنامه نرم افزاری است که تمام پیوندهای یک صفحه را دنبال می کند و به صفحات جدید منتهی می شود و این روند را تا زمانی ادامه می دهد که دیگر پیوند یا صفحه جدیدی برای خزیدن نداشته باشد.
خزندههای وب با نامهای مختلفی شناخته میشوند: ربات، عنکبوت، ربات موتور جستجو یا به اختصار «ربات». آنها را ربات می نامند زیرا وظیفه ای دارند که باید انجام دهند، از پیوندی به پیوند دیگر سفر کنند و اطلاعات هر صفحه را ضبط کنند. متأسفانه، اگر یک ربات واقعی ? با صفحات و بازوهای فلزی را تصور می کردید، این ربات ها شبیه به آن نیستند. خزنده وب گوگل Googlebot نام دارد.
فرآیند خزیدن باید از جایی شروع شود. گوگل از یک "لیست اولیه" اولیه از وب سایت های قابل اعتماد استفاده می کند که تمایل به پیوند به بسیاری از سایت های دیگر دارند. آنها همچنین از لیست سایت هایی که در خزیدن های گذشته دیده اند و همچنین نقشه های سایت ارسال شده توسط صاحبان وب سایت استفاده می کنند.
خزیدن در اینترنت یک فرآیند مستمر برای یک موتور جستجو است. واقعاً هرگز متوقف نمی شود. برای موتورهای جستجو پیدا کردن صفحات جدید منتشر شده یا به روز رسانی صفحات قدیمی بسیار مهم است. آنها نمی خواهند زمان و منابع خود را در صفحاتی که کاندیدای خوبی برای نتیجه جستجو نیستند تلف کنند.
گوگل صفحات خزیدن را در اولویت قرار می دهد که عبارتند از:
بودجه خزیدن تعداد صفحات یا درخواست هایی است که گوگل برای یک وب سایت در یک دوره زمانی مشخص می خزند. تعداد صفحات بودجه بندی شده بستگی به: اندازه، محبوبیت، کیفیت، به روز رسانی و سرعت سایت دارد.
اگر وب سایت شما منابع خزیدن را هدر می دهد، بودجه خزیدن شما کاهش می یابد و صفحات کمتر خزیده می شوند - که منجر به رتبه بندی پایین تر می شود. یک وبسایت میتواند بهطور ناخواسته منابع خزنده وب را با ارائه آدرسهای اینترنتی با ارزش افزوده کم به یک خزنده هدر دهد. این شامل «ناوبری وجهی، محتوای تکراری در سایت، صفحات خطای نرم، صفحات هک شده، کیفیت پایین و محتوای هرزنامه است».
گوگل وبسایتها را برای خزیدن بیشتر شناسایی میکند، اما به وبسایت اجازه نمیدهد برای خزیدن بهتر هزینه پرداخت کند. یک وبسایت میتواند خزیدن را انصراف دهد یا خزیدن قسمتهایی از سایت را با دستورالعملهای موجود در فایل robots.txt محدود کند. این قوانین به خزندههای وب موتورهای جستجو میگویند که کدام بخشهای وبسایت را مجاز به خزیدن هستند و کدام قسمتها را نمیتوانند. با robots.txt بسیار مراقب باشید. مسدود کردن ناخواسته گوگل از تمام صفحات یک وب سایت آسان است. دستورات غیر مجاز با تمام مسیرهای URL که با مسیر مشخص شده شروع می شوند مطابقت دارند:
Disallow: /
[blocks crawling the entire site]
Disallow: /login/
[blocks crawling every URL in the directory /login/]
دستور robots.txt Disallow فقط خزیدن یک صفحه را مسدود می کند. اگر Google پیوندی به صفحه غیرمجاز پیدا کند، URL همچنان میتواند فهرست شود. Google میتواند URL و متن پیوندی پیوندهای صفحه را در نتایج جستجوی خود قرار دهد، اما محتوای صفحه را ندارد.
اگر نمیخواهید صفحهای در نتایج موتور جستجوی Google گنجانده شود، باید یک برچسب noindex به صفحه اضافه کنید (و به Google اجازه دهید آن برچسب را ببیند). این مفهوم تمایز بین خزیدن و نمایه سازی را به ما نشان می دهد.
رندر عبارت است از تفسیر HTML، CSS و جاوا اسکریپت در صفحه برای ساختن نمایش بصری دقیقاً آنچه در مرورگر وب خود می بینید. یک مرورگر وب کد را به یک صفحه وب تبدیل می کند.
رندر کد HTML قدرت پردازش کامپیوتر را می گیرد. اگر صفحات شما برای ارائه محتوای صفحه به جاوا اسکریپت متکی هستند، پردازش بسیار زیادی نیاز دارد. در حالی که گوگل می تواند صفحات جاوا اسکریپت را بخزد و رندر کند، رندر JS به صف اولویت بندی می رود. بسته به اهمیت صفحه، رسیدن به آن ممکن است کمی طول بکشد. اگر وبسایت واقعاً بزرگی دارید که به جاوا اسکریپت برای ارائه محتوا در صفحات نیاز دارد، ممکن است زمان زیادی طول بکشد تا صفحات جدید یا بهروز شده ایندکس شوند. توصیه می شود در صورت امکان، محتوا و پیوندها را به جای جاوا اسکریپت در HTML ارائه کنید.
ایندکس، ذخیره و سازماندهی اطلاعات موجود در صفحات است. ربات کد را در صفحه به همان روشی که یک مرورگر انجام می دهد ارائه می دهد. تمام محتوا، پیوندها و ابردادههای صفحه را فهرستبندی میکند.
ایندکس به مقدار زیادی از منابع کامپیوتری نیاز دارد و این فقط ذخیره سازی داده ها نیست. برای ارائه میلیونها صفحه وب به منابع محاسباتی زیادی نیاز است. اگر تعداد زیادی تب مرورگر را باز کنید، ممکن است متوجه این موضوع شده باشید!
خریدن، کشف صفحات و لینک هایی است که به صفحات بیشتری منتهی می شوند. ایندکس ذخیره، تجزیه و تحلیل و سازماندهی محتوا و ارتباطات بین صفحات است. بخش هایی از ایندکس وجود دارد که به اطلاع رسانی نحوه خزیدن یک موتور جستجو کمک می کند.
اینجاست که بهینه سازی موتور جستجو شما شروع می شود. اگر گوگل نتواند وب سایت شما را بخزد، در هیچ یک از نتایج جستجو قرار نخواهید گرفت. حتما robots.txt را بررسی کنید. بررسی فنی سئو وب سایت شما باید هرگونه مشکل دیگری را در مورد دسترسی به خزنده وب موتورهای جستجو نشان دهد.
اگر وب سایت شما مملو از خطا یا صفحات بی کیفیت باشد، گوگل می تواند این تصور را داشته باشد که سایت عمدتاً صفحات ناخواسته بی استفاده است. خطاهای کدنویسی، تنظیمات CMS یا صفحات هک شده می تواند Googlebot را در مسیری از صفحات بی کیفیت قرار دهد. هنگامی که کیفیت پایین بر صفحات با کیفیت بالا در یک وب سایت بیشتر باشد، رتبه بندی جستجو آسیب می بیند.
می توانید ببینید که چگونه گوگل وب سایت شما را با دستور "site:" ایندکس می کند. این را در کادر جستجوی Google وارد کنید تا تمام صفحاتی را که آنها در وب سایت شما فهرست کرده اند مشاهده کنید:
site:yourdomain.com
site:yourdomain.com/blog/
حتی می توانید دستور "site:
" را با "inurl" به کار ببرید تا نتایجی را که قصد ندارید داشته باشید از نتایج بررسی به شما نمایش ندهد.
site:yourdomain.com -site:support.yourdomain.com inurl:2019
بررسی کنید که عناوین و توضیحات به گونه ای ایندکس شده باشند که بهترین تجربه را ارائه دهد. مطمئن شوید که هیچ صفحه غیرمنتظره، عجیب و غریب یا چیزی ایندکس شده که نباید باشد در نتایج دیده نشود.
اگر وب سایت دارید، باید وب سایت خود را با کنسول جستجوی گوگل تأیید کنید. داده های ارائه شده در اینجا بسیار ارزشمند است. Google گزارشهایی درباره عملکرد رتبهبندی جستجو ارائه میکند: نمایشها و کلیکها بر اساس صفحه، کشور یا نوع دستگاه، تا 16 ماه داده. در سرچ کنسول گزارشهای خطا هایی را که Google پیدا کرده است می توانید مشاهده نمایید.
سعی کنید از یک خزنده وب استفاده کنید تا ایده بهتری پیدا کنید که چگونه یک موتور جستجو وب سایت شما را می خزد. چندین گزینه به صورت رایگان وجود دارد. Screaming Frog یکی از محبوب ترین ها است، دارای رابط کاربری عالی، چندین ویژگی است و امکان خزیدن تا 500 صفحه را به صورت رایگان فراهم می کند. Sitebulb یکی دیگر از گزینه های عالی برای یک خزنده وب با امکانات کامل با رویکرد بصری تر به داده های ارائه شده است. Xenu's Link Sleuth یک خزنده وب قدیمی است، اما کاملا رایگان است. Xenu ویژگی های زیادی برای کمک به شناسایی مشکلات SEO ندارد، اما می تواند به سرعت وب سایت های بزرگ را بخزد و کدهای وضعیت و اینکه کدام صفحات به کدام صفحات دیگر پیوند دارند را بررسی کند.
وقتی نوبت به درک نحوه خزیدن Googlebot در وب سایت شما می رسد، هیچ چیز بهتر از گزارش های سرور نیست. یک وب سرور را می توان به گونه ای پیکربندی کرد که فایل های گزارشی را که حاوی هر درخواست یا ضربه ای توسط هر عامل کاربر است ذخیره کند. این شامل افرادی می شود که صفحات وب را از طریق مرورگر خود و هر خزنده وب مانند Googlebot درخواست می کنند. شما اطلاعاتی در مورد نحوه تجربه خزنده های موتورهای جستجو از وب سایت شما از برنامه های Web Analytics مانند Google Analytics دریافت نمی کنید زیرا خزنده های وب معمولاً برچسب های تجزیه و تحلیل جاوا اسکریپت را اجرا نمی کنند یا فیلتر می شوند.
تجزیه و تحلیل صفحاتی که گوگل در حال خزیدن است بسیار مفید است تا بفهمید آیا آنها در حال خزیدن در مهمترین صفحات شما هستند یا خیر. گروه بندی صفحات بر اساس نوع مفید است تا ببینید چه مقدار خزیدن به هر نوع صفحه اختصاص داده شده است. می توانید صفحات وبلاگ، صفحات مربوط به صفحات، صفحات موضوع، صفحات نویسنده و صفحات جستجو را گروه بندی کنید. اگر تغییرات بزرگی در خزیدن انواع صفحه مشاهده کردید، یا تمرکز زیادی روی یک نوع صفحه (به ضرر دیگران) مشاهده کردید، می تواند نشان دهنده یک مشکل خزیدن باشد که باید بررسی شود. افزایش تعداد کدهای وضعیت خطا نیز نشان دهنده مشکلات خزیدن آشکار است.
توانایی کرال در کل اینترنت و یافتن سریع به روز رسانی ها یک شاهکار مهندسی باورنکردنی است. روشی که گوگل محتوای صفحات وب، ارتباطات (پیوندها) بین صفحات و معنای واقعی کلمات را درک می کند، می تواند جادویی به نظر برسد، اما همه چیز بر اساس ریاضیات زبان شناسی محاسباتی و پردازش زبان طبیعی است. در حالی که ممکن است درک کاملی از این ریاضی و علوم پیشرفته نداشته باشیم، می توانیم توانایی ها را تشخیص دهیم. با کرال و ایندکس اینترنت، گوگل می تواند معنا و کیفیت را از اندازه گیری ها و زمینه استخراج کند.