یک خزنده صفحات وب را می گیرد.- به عنوان مثال ، با توجه به آدرس شروع (یا مجموعه آدرس های شروع) و برخی شرایط(مثلا تا چه عمقی از link پیشرود ، انواع فایلها برای نادیده گرفتن(ignore کردن)) هر آنچه را که از نقطه(های) شروع مرتبط باشد را Download (بارگیری) می کند.
یک scraper صفحات دانلود شده را می گیرد یا به معنای کلی تر داده های قالب بندی شده (فرمت شده-formatted) برای نمایش ،و (تلاش می کند برای )استخراج داده ها از آن صفحات ،به طوری که بتواند (به عنوان مثال) در یک بانک اطلاعاتی ذخیره شود و طبق دلخواه دستکاری شود.
خزنده وب به طور منطقی پیوندهایی به آدرس (Urls - Pages) می دهد و scrapper مقادیر (استخراج) از HTML را دریافت می کند.
خزنده ها Crawlers در پیوندهای وب گشت و گذار می کنند. نمونه ای از این روبات گوگل است که صفحات را برای فهرست بندی می کند. Scraper مقادیر را از صفحات Html استخراج می کند ، اما لزوماً هیچ ارتباطی با وب ندارد.
تفاوت بین یک خزنده وب و یک خراشنده وب. اگرچه گاهی اوقات این دو اصطلاح به بجای هم مورد استفاده قرار می گیرند ، تفاوت اصلی این است که خزندگان وب معمولاً در ایندکس کردن وب تمرکز می کنند در حالی که Scraper داده ها را از صفحات وب استخراج یا "خراشیدن" می کند.تقریباً همپوشانی یکپارچه ای بین خزنده وب و خراشنده وجود دارد.
عنکبوت یا Spider همان Crawler هست !
A web crawler sometimes called a “spider,” is a standalone bot that systematically scans the Internet for indexing and searching for content, following internal links on web pages.