خواندن ۹ دقیقه·۱ سال پیش

یک بار برای همیشه، تفاوت indexing و crawling

ماموریت موتورهای جستجو فهرست بندی کل اینترنت است و آنها باید این کار را سریع و کارآمد انجام دهند. اندازه و مقیاس کل اینترنت عظیم است. چند وب سایت و چند صفحه وجود دارد؟ در سال 2008، گوگل به نقطه عطفی از 1 تریلیون صفحه در اینترنت رسید. تا سال 2013، گوگل حدود 30 تریلیون صفحه را خزیده بود. کمتر از 4 سال بعد، گوگل از 130 تریلیون صفحه خبر داشت. سرعت رشد خیره کننده است و کشف همه این صفحات کار کوچکی نیست.

اگر گوگل در خزیدن یا فهرست کردن سایت شما مشکل داشته باشد، هرگز وارد موتور جستجو نخواهد شد. درک اینکه چگونه گوگل تمام وب سایت های موجود در اینترنت را خزیده و فهرست می کند برای تلاش های سئوی شما بسیار مهم است.

کرالر (Crawler) یا خزنده وب چیست؟

خزیدن به دنبال کردن پیوندهای یک صفحه به صفحات جدید، و ادامه یافتن و دنبال کردن پیوندها در صفحات جدید به سایر صفحات جدید اشاره دارد.

خزنده وب یک برنامه نرم افزاری است که تمام پیوندهای یک صفحه را دنبال می کند و به صفحات جدید منتهی می شود و این روند را تا زمانی ادامه می دهد که دیگر پیوند یا صفحه جدیدی برای خزیدن نداشته باشد.

خزنده‌های وب با نام‌های مختلفی شناخته می‌شوند: ربات، عنکبوت، ربات موتور جستجو یا به اختصار «ربات». آنها را ربات می نامند زیرا وظیفه ای دارند که باید انجام دهند، از پیوندی به پیوند دیگر سفر کنند و اطلاعات هر صفحه را ضبط کنند. متأسفانه، اگر یک ربات واقعی ? با صفحات و بازوهای فلزی را تصور می کردید، این ربات ها شبیه به آن نیستند. خزنده وب گوگل Googlebot نام دارد.

فرآیند خزیدن باید از جایی شروع شود. گوگل از یک "لیست اولیه" اولیه از وب سایت های قابل اعتماد استفاده می کند که تمایل به پیوند به بسیاری از سایت های دیگر دارند. آنها همچنین از لیست سایت هایی که در خزیدن های گذشته دیده اند و همچنین نقشه های سایت ارسال شده توسط صاحبان وب سایت استفاده می کنند.

خزیدن در اینترنت یک فرآیند مستمر برای یک موتور جستجو است. واقعاً هرگز متوقف نمی شود. برای موتورهای جستجو پیدا کردن صفحات جدید منتشر شده یا به روز رسانی صفحات قدیمی بسیار مهم است. آنها نمی خواهند زمان و منابع خود را در صفحاتی که کاندیدای خوبی برای نتیجه جستجو نیستند تلف کنند.

گوگل صفحات خزیدن را در اولویت قرار می دهد که عبارتند از:

محبوب و ترند هستند
کیفیت بالایی دارند
اغلب به روز می شود
وب سایت هایی که محتوای جدید و باکیفیت منتشر می کنند، اولویت بیشتری دارند

بودجه خزیدن یا کرال باجت چیست؟

بودجه خزیدن تعداد صفحات یا درخواست هایی است که گوگل برای یک وب سایت در یک دوره زمانی مشخص می خزند. تعداد صفحات بودجه بندی شده بستگی به: اندازه، محبوبیت، کیفیت، به روز رسانی و سرعت سایت دارد.

اگر وب سایت شما منابع خزیدن را هدر می دهد، بودجه خزیدن شما کاهش می یابد و صفحات کمتر خزیده می شوند - که منجر به رتبه بندی پایین تر می شود. یک وب‌سایت می‌تواند به‌طور ناخواسته منابع خزنده وب را با ارائه آدرس‌های اینترنتی با ارزش افزوده کم به یک خزنده هدر دهد. این شامل «ناوبری وجهی، محتوای تکراری در سایت، صفحات خطای نرم، صفحات هک شده، کیفیت پایین و محتوای هرزنامه است».

گوگل وب‌سایت‌ها را برای خزیدن بیشتر شناسایی می‌کند، اما به وب‌سایت اجازه نمی‌دهد برای خزیدن بهتر هزینه پرداخت کند. یک وب‌سایت می‌تواند خزیدن را انصراف دهد یا خزیدن قسمت‌هایی از سایت را با دستورالعمل‌های موجود در فایل robots.txt محدود کند. این قوانین به خزنده‌های وب موتورهای جستجو می‌گویند که کدام بخش‌های وب‌سایت را مجاز به خزیدن هستند و کدام قسمت‌ها را نمی‌توانند. با robots.txt بسیار مراقب باشید. مسدود کردن ناخواسته گوگل از تمام صفحات یک وب سایت آسان است. دستورات غیر مجاز با تمام مسیرهای URL که با مسیر مشخص شده شروع می شوند مطابقت دارند:

Disallow: /

[blocks crawling the entire site]

Disallow: /login/

[blocks crawling every URL in the directory /login/]

دستور robots.txt Disallow فقط خزیدن یک صفحه را مسدود می کند. اگر Google پیوندی به صفحه غیرمجاز پیدا کند، URL همچنان می‌تواند فهرست شود. Google می‌تواند URL و متن پیوندی پیوندهای صفحه را در نتایج جستجوی خود قرار دهد، اما محتوای صفحه را ندارد.

اگر نمی‌خواهید صفحه‌ای در نتایج موتور جستجوی Google گنجانده شود، باید یک برچسب noindex به صفحه اضافه کنید (و به Google اجازه دهید آن برچسب را ببیند). این مفهوم تمایز بین خزیدن و نمایه سازی را به ما نشان می دهد.

رندرینگ (rendering) چیست؟

رندر عبارت است از تفسیر HTML، CSS و جاوا اسکریپت در صفحه برای ساختن نمایش بصری دقیقاً آنچه در مرورگر وب خود می بینید. یک مرورگر وب کد را به یک صفحه وب تبدیل می کند.

رندر کد HTML قدرت پردازش کامپیوتر را می گیرد. اگر صفحات شما برای ارائه محتوای صفحه به جاوا اسکریپت متکی هستند، پردازش بسیار زیادی نیاز دارد. در حالی که گوگل می تواند صفحات جاوا اسکریپت را بخزد و رندر کند، رندر JS به صف اولویت بندی می رود. بسته به اهمیت صفحه، رسیدن به آن ممکن است کمی طول بکشد. اگر وب‌سایت واقعاً بزرگی دارید که به جاوا اسکریپت برای ارائه محتوا در صفحات نیاز دارد، ممکن است زمان زیادی طول بکشد تا صفحات جدید یا به‌روز شده ایندکس شوند. توصیه می شود در صورت امکان، محتوا و پیوندها را به جای جاوا اسکریپت در HTML ارائه کنید.

ایندکس (index) چیست؟

ایندکس، ذخیره و سازماندهی اطلاعات موجود در صفحات است. ربات کد را در صفحه به همان روشی که یک مرورگر انجام می دهد ارائه می دهد. تمام محتوا، پیوندها و ابرداده‌های صفحه را فهرست‌بندی می‌کند.

ایندکس به مقدار زیادی از منابع کامپیوتری نیاز دارد و این فقط ذخیره سازی داده ها نیست. برای ارائه میلیون‌ها صفحه وب به منابع محاسباتی زیادی نیاز است. اگر تعداد زیادی تب مرورگر را باز کنید، ممکن است متوجه این موضوع شده باشید!

تفاوت بین خزیدن (کرال) و ایندکس چیست؟

خریدن، کشف صفحات و لینک هایی است که به صفحات بیشتری منتهی می شوند. ایندکس ذخیره، تجزیه و تحلیل و سازماندهی محتوا و ارتباطات بین صفحات است. بخش هایی از ایندکس وجود دارد که به اطلاع رسانی نحوه خزیدن یک موتور جستجو کمک می کند.

اهمیت خزیدن (crawling) و ایندکس (indexing) برای وب سایت شما

اینجاست که بهینه سازی موتور جستجو شما شروع می شود. اگر گوگل نتواند وب سایت شما را بخزد، در هیچ یک از نتایج جستجو قرار نخواهید گرفت. حتما robots.txt را بررسی کنید. بررسی فنی سئو وب سایت شما باید هرگونه مشکل دیگری را در مورد دسترسی به خزنده وب موتورهای جستجو نشان دهد.

اگر وب سایت شما مملو از خطا یا صفحات بی کیفیت باشد، گوگل می تواند این تصور را داشته باشد که سایت عمدتاً صفحات ناخواسته بی استفاده است. خطاهای کدنویسی، تنظیمات CMS یا صفحات هک شده می تواند Googlebot را در مسیری از صفحات بی کیفیت قرار دهد. هنگامی که کیفیت پایین بر صفحات با کیفیت بالا در یک وب سایت بیشتر باشد، رتبه بندی جستجو آسیب می بیند.

وب سایت خود را ناخواسته از دسترسی گوگل مسدود نکنید
خطاهای وب سایت خود را بررسی و رفع کنید
ایندکس گوگل را بررسی کنید، مطمئن شوید که صفحه شما همانطور که می خواهید ظاهر می شود

نحوه بررسی مشکلات کرال و ایندکس صفحات

استفاده از سرپ گوگل

می توانید ببینید که چگونه گوگل وب سایت شما را با دستور "site:" ایندکس می کند. این را در کادر جستجوی Google وارد کنید تا تمام صفحاتی را که آنها در وب سایت شما فهرست کرده اند مشاهده کنید:

site:yourdomain.com

site:yourdomain.com/blog/

حتی می توانید دستور "site:" را با "inurl" به کار ببرید تا نتایجی را که قصد ندارید داشته باشید از نتایج بررسی به شما نمایش ندهد.

site:yourdomain.com -site:support.yourdomain.com inurl:2019

بررسی کنید که عناوین و توضیحات به گونه ای ایندکس شده باشند که بهترین تجربه را ارائه دهد. مطمئن شوید که هیچ صفحه غیرمنتظره، عجیب و غریب یا چیزی ایندکس شده که نباید باشد در نتایج دیده نشود.

استفاده از Google Search Console

اگر وب سایت دارید، باید وب سایت خود را با کنسول جستجوی گوگل تأیید کنید. داده های ارائه شده در اینجا بسیار ارزشمند است. Google گزارش‌هایی درباره عملکرد رتبه‌بندی جستجو ارائه می‌کند: نمایش‌ها و کلیک‌ها بر اساس صفحه، کشور یا نوع دستگاه، تا 16 ماه داده. در سرچ کنسول گزارش‌های خطا هایی را که Google پیدا کرده است می توانید مشاهده نمایید.

از خرنده وب استفاده کنید

سعی کنید از یک خزنده وب استفاده کنید تا ایده بهتری پیدا کنید که چگونه یک موتور جستجو وب سایت شما را می خزد. چندین گزینه به صورت رایگان وجود دارد. Screaming Frog یکی از محبوب ترین ها است، دارای رابط کاربری عالی، چندین ویژگی است و امکان خزیدن تا 500 صفحه را به صورت رایگان فراهم می کند. Sitebulb یکی دیگر از گزینه های عالی برای یک خزنده وب با امکانات کامل با رویکرد بصری تر به داده های ارائه شده است. Xenu's Link Sleuth یک خزنده وب قدیمی است، اما کاملا رایگان است. Xenu ویژگی های زیادی برای کمک به شناسایی مشکلات SEO ندارد، اما می تواند به سرعت وب سایت های بزرگ را بخزد و کدهای وضعیت و اینکه کدام صفحات به کدام صفحات دیگر پیوند دارند را بررسی کند.

تجزیه و تحلیل فایل لاگ سرور

وقتی نوبت به درک نحوه خزیدن Googlebot در وب سایت شما می رسد، هیچ چیز بهتر از گزارش های سرور نیست. یک وب سرور را می توان به گونه ای پیکربندی کرد که فایل های گزارشی را که حاوی هر درخواست یا ضربه ای توسط هر عامل کاربر است ذخیره کند. این شامل افرادی می شود که صفحات وب را از طریق مرورگر خود و هر خزنده وب مانند Googlebot درخواست می کنند. شما اطلاعاتی در مورد نحوه تجربه خزنده های موتورهای جستجو از وب سایت شما از برنامه های Web Analytics مانند Google Analytics دریافت نمی کنید زیرا خزنده های وب معمولاً برچسب های تجزیه و تحلیل جاوا اسکریپت را اجرا نمی کنند یا فیلتر می شوند.

تجزیه و تحلیل صفحاتی که گوگل در حال خزیدن است بسیار مفید است تا بفهمید آیا آنها در حال خزیدن در مهمترین صفحات شما هستند یا خیر. گروه بندی صفحات بر اساس نوع مفید است تا ببینید چه مقدار خزیدن به هر نوع صفحه اختصاص داده شده است. می توانید صفحات وبلاگ، صفحات مربوط به صفحات، صفحات موضوع، صفحات نویسنده و صفحات جستجو را گروه بندی کنید. اگر تغییرات بزرگی در خزیدن انواع صفحه مشاهده کردید، یا تمرکز زیادی روی یک نوع صفحه (به ضرر دیگران) مشاهده کردید، می تواند نشان دهنده یک مشکل خزیدن باشد که باید بررسی شود. افزایش تعداد کدهای وضعیت خطا نیز نشان دهنده مشکلات خزیدن آشکار است.

توانایی کرال در کل اینترنت و یافتن سریع به روز رسانی ها یک شاهکار مهندسی باورنکردنی است. روشی که گوگل محتوای صفحات وب، ارتباطات (پیوندها) بین صفحات و معنای واقعی کلمات را درک می کند، می تواند جادویی به نظر برسد، اما همه چیز بر اساس ریاضیات زبان شناسی محاسباتی و پردازش زبان طبیعی است. در حالی که ممکن است درک کاملی از این ریاضی و علوم پیشرفته نداشته باشیم، می توانیم توانایی ها را تشخیص دهیم. با کرال و ایندکس اینترنت، گوگل می تواند معنا و کیفیت را از اندازه گیری ها و زمینه استخراج کند.

وب سایتseoسئوسئووبهینه سازیجاوا اسکریپت

azad webmaster

شاید از این پست‌ها خوشتان بیاید