Web Scraping چیست؟
Web Scraping به معنای استخراج دادهها از صفحات وب است. این فرایند توسط برنامههای کامپیوتری انجام میشود که به صورت خودکار، دادههای مورد نظر را از صفحات وب جمعآوری میکنند. به عبارت دیگر، این فرایند شامل خواندن و جمعآوری اطلاعات از صفحات وب میشود.
اهمیت یادگیری Web Scraping چیست؟
بی شک، اطلاعات از مفاهیم پرتکرار و مهم عصر حاضر محسوب میشود و داشتن اطلاعات طبقهبندی شده، یک قدرت به شمار میآید. میدانیم که اینترنت منبعی از اطلاعات است که روز به روز در حال گسترش است. حال اگرچه دسترسی به اطلاعات عمومی شبکه جهانی اینترنت برای همه فراهم است، اما جمعآوری و طبقهبندی این دادهها به صورت دستی و توسط انسان بسته به نوع و حجم اطلاعات، میتواند کاری طاقتفرسا، به شدت زمانبر و همراه با خطای انسانی باشد که موجب اتلاف زمان و صرف هزینه زیادی گردد، در حالی که خروجی کار نیز دارای خطا است.
حال با افزایش روزافزون اطلاعات، حتی فکر کردن به جمعآوری دادهها به صورت دستی نیز دشوار خواهد شد و به یک ربات سریع و با دقت بالا برای جمعآوری این حجم از اطلاعات نیاز است و این همان کاری است که Web Scraping انجام میدهد.
Web Scraping قابلیت ارتباط با سایتهای اینترنتی و استخراج اطلاعاتی که برای ما اهمیت دارند را به صورت طبقهبندی شده با سرعت و دقت بالایی برای ما فراهم میآورد و در نتیجه میتوان دیتابیس (Database) مربوط به دادههای در دسترس هر سایت اینترنتی را در مدت زمان کمی جمعآوری کرد. به غیر از دقت بالا، مقایسه زمانی عملکرد Web Scraping با جمعآوری دستی اطلاعات، شگفتآور خواهد بود.
اگر شما گوگل باشید، اطلاعات سایتهای مختلف را برای نمایش بهترین نتایج جستوجوها استخراج میکنید و یا اگر یک تحلیلگر اقتصادی باشید که قصد بررسی وضعیت بازار را دارد یا در بورس فعال باشید و یا حتی صاحب استارتاپی هستید که اطلاعات اینترنتی را جمعآوری و تحلیل کرده و به فروش میرسانید، به هر حال شما برای پیشرفت در کار خود و کیفیت بخشیدن به آن در دنیای امروز، حتما به Web Scraping نیاز خواهید داشت.
در این فرادرس چه چیزی یاد میگیریم؟
در این آموزش پایتون ابتدا با کتابخانه Requests آشنا میشویم و متدهای مختلف آن را بررسی میکنیم؛ در ادامه fi ساختار کدهای HTML میپردازیم؛ در گام بعدی کتابخانه Beautiful Soup را نصب و مفاهیم و متدهای آن را فرا میگیریم؛ با مفهوم و کاربرد Regex آشتنا میشویم؛ کتابخانه Re در قدم بعدی بررسی میشود؛ در ادامه به عنوان مثال اطلاعات محصولات سایت دیجیکالا را استخراج میکنیم و در نهایت اطلاعات استخراج شده از سایت دیجیکالا را با استفاده از کتابخانه Pandas در یک فایل Excel ذخیره خواهیم کرد.
منبع: فرادرس