یه کوچولو وب اسکرپینگ با پایتون‌:) (۳)

وب اسکرپینگ (ببخشید قسمت ها روش نمی نویسم)
وب اسکرپینگ (ببخشید قسمت ها روش نمی نویسم)


سلام طبق معمول امیرمهدی هستم :)

به خاطر تاخیر عذر خواهی می کنم

خب تا جایی پیش رفتیم که به سایت request بزنیم و محتواش رو ‌ذخیره کنیم. ولی خب از این جا به بعد می خوایم محتوا ی سایت رو بخونیم و باهاش کار کنیم. برای این کار از لایبری bs4 (BeautifulSoup 4) استفاده می کنیم برای استفاده کردن از کتابخونه با خط زیر ایمپورتش می کنیم :

from bs4 import BeautifulSoup

حالا ما می خوایم عناصر صفحه رو تجزیه کنیم. یا به اصطلاح پارسش کنیم. مثلا یک مثالش در دنیای واقعای و باحال گونش اینه که ما یک سوپ داریم میدیمش به bs4 میگیم تمام هویجاش رو به ما بده :)) پیازش رو به ما بده:) ما توی خط کد زیر دیتای requestمون رو به bs4 میدیم تا بعدن بتونیم دیتامون رو پارس کینم یا مثالش این هست که بهش بگیم تمام تگ های A سایت رو بهمون بده. این خط کد رو به بقیه ی کد هامون اضافه می کنیم تا بتونیم بعدن دیتامون رو پارس کنیم ! :

soup = BeautifulSoup(site.text, 'html.parser')

حالا چجوری می تونیم بخونیم چیزای مختلفو ازش بخونیم؟ این جا یه مثال داریم، که می خوایم توش تمام تگ های a رو که href دارن رو در بیاریم :)(همه ی لینک ها)

for link in soup.find_all(&quota&quot, href=True):
    print(link[''href'])

تا این جا ما الان یاد گرفتیم که چجوری تگ ها رو جدا کنیم و بخونیم. یعنی شما می تونید ریکوءست بزنید و حالا به صورت مقدماتی تگ ها رو فیلتر کنین و دیتا رو بخونین :)