aseman
aseman
خواندن ۲ دقیقه·۱ سال پیش

آموزش Web Scraping برای استخراج داده های سایت با پایتون

Web Scraping چیست؟

Web Scraping به معنای استخراج داده‌ها از صفحات وب است. این فرایند توسط برنامه‌های کامپیوتری انجام می‌شود که به صورت خودکار، داده‌های مورد نظر را از صفحات وب جمع‌آوری می‌کنند. به عبارت دیگر، این فرایند شامل خواندن و جمع‌آوری اطلاعات از صفحات وب می‌شود.

اهمیت یادگیری Web Scraping چیست؟

بی شک، اطلاعات از مفاهیم پرتکرار و مهم عصر حاضر محسوب می‌شود و داشتن اطلاعات طبقه‌بندی شده، یک قدرت به شمار می‌آید. می‌دانیم که اینترنت منبعی از اطلاعات است که روز به روز در حال گسترش است. حال اگرچه دسترسی به اطلاعات عمومی شبکه جهانی اینترنت برای همه فراهم است، اما جمع‌آوری و طبقه‌بندی این داده‌ها به صورت دستی و توسط انسان بسته به نوع و حجم اطلاعات، می‌تواند کاری طاقت‌فرسا، به ‌شدت زمانبر و همراه با خطای انسانی باشد که موجب اتلاف زمان و صرف هزینه زیادی گردد، در حالی که خروجی کار نیز دارای خطا است.

حال با افزایش روزافزون اطلاعات، حتی فکر کردن به جمع‌آوری داده‌‌ها به صورت دستی نیز دشوار خواهد شد و به یک ربات سریع و با دقت بالا برای جمع‌آوری این حجم از اطلاعات نیاز است و این همان کاری است که Web Scraping انجام می‌دهد.

Web Scraping قابلیت ارتباط با سایت‌های اینترنتی و استخراج اطلاعاتی که برای ما اهمیت دارند را به صورت طبقه‌بندی شده با سرعت و دقت بالایی برای ما فراهم می‌آورد و در نتیجه می‌‌توان دیتابیس (Database) مربوط به داده‌‌های در دسترس هر سایت اینترنتی را در مدت زمان کمی جمع‌آوری کرد. به غیر از دقت بالا، مقایسه زمانی عملکرد Web Scraping با جمع‌آوری دستی اطلاعات، شگفت‌آور خواهد بود.

اگر شما گوگل باشید، اطلاعات سایت‌های مختلف را برای نمایش بهترین نتایج جست‌و‌جوها استخراج می‌کنید و یا اگر یک تحلیل‌‌گر اقتصادی باشید که قصد بررسی وضعیت بازار را دارد یا در بورس فعال باشید و یا حتی صاحب استارتاپی هستید که اطلاعات اینترنتی را جمع‌آوری و تحلیل کرده و به فروش می‌رسانید، به هر حال شما برای پیشرفت در کار خود و کیفیت بخشیدن به آن در دنیای امروز، حتما به Web Scraping نیاز خواهید داشت.

در این فرادرس چه چیزی یاد می‌گیریم؟

در این آموزش پایتون ابتدا با کتابخانه Requests آشنا می‌شویم و متدهای مختلف آن را بررسی می‌کنیم؛ در ادامه fi ساختار کدهای HTML می‌پردازیم؛ در گام بعدی  کتابخانه Beautiful Soup را نصب و مفاهیم و متدهای آن را فرا می‌گیریم؛ با مفهوم و کاربرد Regex آشتنا می‌شویم؛ کتابخانه Re در قدم بعدی بررسی می‌شود؛ در ادامه به عنوان مثال اطلاعات محصولات سایت دیجی‌کالا را استخراج می‌کنیم و در نهایت اطلاعات استخراج شده از سایت دیجی‌کالا را با استفاده از کتابخانه Pandas در یک فایل Excel ذخیره خواهیم کرد.

منبع: فرادرس

web scraping
سلام به همه، من آسمان هستم خدمات من در زمینه انواع محتواهای آموزشی هست که خدمت شما مخاطب های عزیز ارائه میکنم.
شاید از این پست‌ها خوشتان بیاید