آموزش کامل web scraping با پایتون

  • قبل از هر چیز web scraping یعنی چی؟
وب اسکرپینگ به عمل جمع آوری اطلاعات از وبسایت ها به صورت اتوماتیک با استفاده از یک bot میگویند.
هرچند که اگه شما به صورت دستی هم اطلاعات رو جمع آوری کنید یک scraper هستید.
  • خب web crawler یعنی چی؟
همون bot که بالا بهتون گفتم اگه بتونه بین لینک ها پیمایش کنه به یک crawler تبدیل میشه
  • کاربردهاش چی هستن؟
کاربردهای متنوعی داره. هر کسی یا شرکتی با هدفی خاص اطلاعات رو جمع آوری میکنه.
در حال حاضر گوگل مهمترین شرکتی هست که داره از علم web scraping استفاده میکنه. و هدفش هم اینه که بتونه محتویات جدیدی رو که هر روزه داخل میلیون ها وبسایت منتشر میشن رو بخونه و دسته بندی کنه.
اطلاعاتی که شما توسط bot جمع آوری میکنید رو میتونید داخل دیتابیس ها ذخیره کنید و بعدش با استفاده از الگوریتم هایی که تعریف میکنید اون اطلاعات رو تحلیل کنید.
  • با چه زبان هایی میشه web scraping کرد؟
تقریبا با هر زبانی میشه به صورت ساده این کار رو کرد اما برای موارد پیچیده تر مثل ارسال اطلاعات در فرم ها، شکستن کدهای recaptcha، دانلود عکس ها و فایل ها و... باید برید سراغ یه زبان حرفه ای تر.
و همون طور که از عنوان حدس زدید پایتون به خوبی میتونه این کارها رو انجام بده.
  • داخل پایتون چه ابزارهایی برای اینکار هست؟
در زبان پایتون ابزارهای متنوعی برای این کار وجود داره اما چهارتا از معروف هاش: scrapy, selenium, request, beautifulSoup هستن.
  • چقدر طول میکشه که این علم رو یاد بگیریم؟

اگه به این کار علاقه مند باشید میتونید در عرض دو هفته به سطح متوسط برسید، اما برای حرفه شدن باید پروژه انجام بدید و مطالعه کنید.

  • کجا میشه یاد گرفتش؟
از اونجایی که ذکات علم نشر آن است، یه دوره رایگان براتون ضبط کردم و تمام اون چهارتا ابزاری که بالا بهتون گفتم رو توضیح دادم. لینکش رو هم میزارم پایین همین مطلب.
https://www.mongard.ir/courses/python-web-scraping/episode/102/web-scraping-intro/