قبل از جستجو ، خزندگان وب از صدها میلیارد صفحه وب اطلاعات را جمعآوری میکنند و آنها را در فهرست جستجو سازمان میدهند.
روند خزیدن با لیستی از آدرسهای وب از گذشته خزندهها و نقشههای سایت ارائه شده توسط دارندگان وب سایتها آغاز میشود. وقتی خزندههای گوگل از این وب سایتها بازدید میکنند ، از لینکهای موجود در آن سایتها برای کشف صفحات دیگر استفاده میکنند. این نرم افزار توجه ویژهای به سایتهای جدید ، تغییر در سایتهای موجود و لینکهای قطع شده دارد. برنامههای رایانهای تعیین میکنند که کدام سایتها را خزش کنند، هر چند وقت یکبار و چند صفحه از هر سایت را واکشی کنند.
گوگل برنامه سرچ کنسول را ارائه داده است تا به صاحبان سایتها در مورد چگونگی پیمایش گوگل در سایتشان گزینههای کاملی بدهد: آنها میتوانند در مورد نحوه پردازش صفحات در سایتهای خود دستورالعمل های مفصلی را ارائه دهند ، میتوانند درخواست مجدد کنند یا میتوانند با استفاده از فایلی به نام "robots.txt" به طور کامل از خزیدن خودداری کنند. " گوگل هرگز پرداخت برای خزیدن یک سایت با سرعت بیشتر را قبول نمیکند - ابزارهای یکسانی را در اختیار همه وب سایتها قرار میدهد تا بهترین نتیجه ممکن را برای کاربران اینترنت کسب کند.
وب مانند یک کتابخانه همیشه در حال رشد است که دارای میلیاردها کتاب است و هیچ سیستم تشکیل پرونده مرکزی ندارد. موتور جستجو گوگل برای کشف صفحات وب موجود در دسترس عموم از نرم افزاری استفاده میکند که به عنوان خزنده وب شناخته میشود. خزندهها به صفحات وب نگاه میکنند و پیوندهای موجود در آن صفحات را دنبال میکنند ، مانند آنچه که اگر در حال مرور محتوای وب هستید. آنها از پیوندی به پیوند دیگر مراجعه میکنند و دادههای مربوط به آن صفحات وب را به سرورهای گوگل باز میگردانند.