جستجوی گوگل یک موتور جستجوی کاملاً خودکار است که از نرمافزاری به نام خزندههای وب استفاده میکند که به طور منظم وب را برای یافتن صفحاتی برای افزودن به فهرست گوگل جستجو میکند. در واقع، اکثر صفحات فهرستشده در نتایج گوگل بهصورت دستی برای گنجاندن ارسال نمیشوند، اما زمانی که خزندههای وب گوگل در وب را کاوش میکنند، بهطور خودکار پیدا و اضافه میشوند. این سند مراحل نحوه عملکرد جستجو در زمینه وب سایت شما را توضیح می دهد. داشتن این دانش پایه می تواند به شما کمک کند مشکلات خزیدن را برطرف کنید، صفحات خود را ایندکس کنید، و یاد بگیرید که چگونه سایت خود را در جستجوی گوگل بهینه کنید.
چند نکته قبل از شروع
قبل از اینکه به جزئیات نحوه عملکرد جستجو بپردازیم، مهم است که توجه داشته باشیم که گوگل برای خزیدن بیشتر یک سایت یا رتبهبندی آن، پرداختی را نمیپذیرد. اگر کسی خلاف این را به شما بگوید، اشتباه می کند.
گوگل تضمین نمیکند که صفحه شما را بخزد، فهرست کند یا ارائه دهد، حتی اگر صفحه شما از دستورالعملها و قوانین گوگل برای صاحبان سایت پیروی کند.
معرفی سه مرحله جستجوی گوگل
جستجوی گوگل در سه مرحله کار می کند و همه صفحات از هر مرحله عبور نمی کنند:
خزیدن یا کروال کردن (Crawling)
مرحله اول این است که گوگل بداند چه صفحاتی در وب وجود دارد. یک رجیستری مرکزی برای همه صفحات وب وجود ندارد، بنابراین گوگل باید دائماً به دنبال صفحات جدید و به روز شده باشد و آنها را به لیست صفحات شناخته شده خود اضافه کند. این فرآیند "کشف لینک" نامیده می شود. برخی از صفحات به این دلیل شناخته شده اند که گوگل قبلاً از آنها بازدید کرده است. صفحات دیگر زمانی کشف می شوند که گوگل پیوندی را از یک صفحه شناخته شده به یک صفحه جدید دنبال می کند: برای مثال، یک صفحه هاب، مانند صفحه دسته، به یک پست وبلاگ جدید پیوند می دهد. هنگامی که فهرستی از صفحات (نقشه سایت) را برای خزیدن گوگل ارسال می کنید، صفحات دیگری کشف می شوند.
هنگامی که گوگل لینک یک صفحه را پیدا کرد، ممکن است از صفحه بازدید کند (یا "خزیدن") برای پیدا کردن آنچه در آن وجود دارد. گوگل از مجموعه عظیمی از رایانه ها برای خزیدن میلیاردها صفحه در وب استفاده می کند. برنامه ای که واکشی را انجام می دهد گوگل بات نامیده می شود (همچنین به عنوان ربات یا عنکبوت نیز شناخته می شود). گوگل بات از یک فرآیند الگوریتمی برای تعیین اینکه کدام سایتها، چند وقت یکبار و چند صفحه از هر سایت باید خزیده شود، استفاده میکند. خزندههای گوگل نیز به گونهای برنامهریزی شدهاند که سعی میکنند سایت را خیلی سریع نخزند تا از بارگذاری بیش از حد آن جلوگیری شود. این مکانیسم بر اساس پاسخهای سایت (به عنوان مثال، خطاهای HTTP 500 به معنای "کم کردن سرعت" ) و تنظیمات در کنسول جستجو است.
با این حال، گوگل بات تمام صفحاتی را که کشف کرده است نمیخزد. برخی از صفحات ممکن است توسط مالک سایت برای خزیدن مجاز نباشند، صفحات دیگر ممکن است بدون ورود به سایت قابل دسترسی نباشند، و صفحات دیگر ممکن است تکراری از صفحاتی باشند که قبلا خزیده شده اند. به عنوان مثال، بسیاری از سایت ها از طریق نسخه www ( www.example.com) و غیر www ( example.com) نام دامنه قابل دسترسی هستند، حتی اگر محتوا در هر دو نسخه یکسان باشد.
در حین خزیدن، گوگل صفحه را رندر میکند و هر جاوا اسکریپتی را که پیدا میکند با استفاده از نسخه اخیر کروم اجرا میکند، مشابه نحوه رندر کردن صفحاتی که مرورگر شما بازدید میکنید. رندر مهم است زیرا وب سایت ها اغلب برای آوردن محتوا به صفحه به جاوا اسکریپت متکی هستند و بدون رندر ممکن است گوگل آن محتوا را نبیند.
خزیدن بستگی به این دارد که آیا خزنده های گوگل می توانند به سایت دسترسی داشته باشند. برخی از مشکلات رایج در دسترسی گوگل بات به سایت ها عبارتند از:
نمایه سازی یا ایندکس (indexing)
پس از خزیدن یک صفحه، گوگل سعی می کند بفهمد صفحه در مورد چیست. این مرحله فهرستسازی نامیده میشود و شامل پردازش و تجزیه و تحلیل محتوای متنی و برچسبها و ویژگیهای محتوای کلیدی، مانند <title>عناصر و ویژگیهای alt، تصاویر ، ویدیوها و غیره است.
در طول فرآیند نمایه سازی، گوگل تعیین می کند که آیا یک صفحه تکراری از صفحه دیگری در اینترنت است یا متعارف دیگر صفحات (کنونیکال). کنونیکال صفحه ای است که ممکن است در نتایج جستجو نشان داده شود. برای انتخاب متعارف، ابتدا صفحاتی را که در اینترنت یافتیم که محتوای مشابهی دارند، دسته بندی می کنیم و سپس صفحه ای را انتخاب می کنیم که بیشتر نماینده گروه است. صفحات دیگر این گروه نسخههای جایگزینی هستند که ممکن است در زمینههای مختلف ارائه شوند، مثلاً اگر کاربر از یک دستگاه تلفن همراه جستجو میکند یا به دنبال صفحه بسیار خاصی از آن خوشه است.
گوگل همچنین سیگنال هایی را در مورد صفحه متعارف و محتویات آن جمع آوری می کند، که ممکن است در مرحله بعدی استفاده شود، جایی که صفحه را در نتایج جستجو ارائه می کنیم. برخی از سیگنال ها شامل زبان صفحه، کشوری که محتوا در آن محلی است، قابلیت استفاده از صفحه و غیره است.
اطلاعات جمعآوریشده درباره صفحه متعارف و خوشه آن ممکن است در فهرست گوگل، یک پایگاه داده بزرگ که بر روی هزاران رایانه میزبانی میشود، ذخیره شود. نمایه سازی تضمین نشده است. هر صفحه ای که گوگل پردازش می کند ایندکس نمی شود.
نمایه سازی به محتوای صفحه و ابرداده آن نیز بستگی دارد. برخی از مشکلات رایج نمایه سازی می تواند شامل موارد زیر باشد:
ارائه نتایج جستجو یا رنک دادن (Ranking)
گوگل برای رتبه بندی صفحات بالاتر پرداختی را نمی پذیرد و رتبه بندی به صورت خودکار با پیروی از یک الگوریتم خاص انجام می شود. هنگامی که کاربر درخواستی را وارد میکند، ماشینهای گوگل فهرست را برای صفحات منطبق جستجو میکنند و نتایجی را که گوگل معتقد است بالاترین کیفیت و مرتبطتر با سرچ کاربر هستند را برمیگردانند. این ارتباط توسط صدها عامل تعیین می شود که می تواند شامل اطلاعاتی مانند مکان کاربر، زبان و دستگاه (رومیزی یا تلفن) باشد. برای مثال، جستجوی «تعمیرگاههای دوچرخه» نتایج متفاوتی را برای کاربر در پاریس نسبت به کاربر هنگکنگ نشان میدهد.
کنسول جستجو ممکن است به شما بگوید که یک صفحه ایندکس شده است، اما شما آن را در نتایج جستجو نمی بینید. این ممکن است به این دلیل باشد که:
بنده محسن دوستی با چندین سال سابقه فعالیت در حوزه سئو و دیجیتال مارکتینگ قصد دارم بهترین مقالات این حوزه که به زبان انگلیسی است را به فارسی ترجمه کنم و در اختیار شما دوستان عزیز قرار بدم. خیلی خوشحالم می کنید اگر وبلاگ شخصی من رو دنبال کنید. از لایک کردن و به اشتراک گذاشتن نظراتتون هم خوشحال میشم.
برای تماس با من به این آیدی در تلگرام پیام بفرستید: mohsenseo@