برنامه نویسی ساده :) یخورده دواپس :) پایتون، گو، علاقمند/دوستدار/استفاده کننده گنو/ لینوکس :) خیلی علاقمند به یادگیری و یاد دادن:) ایمیل من: a.tafreshi440@gmail.com تلگرام من: Amirmahdi_tafreshi@
یه کوچولو وب اسکرپینگ با پایتون:) (۳)
سلام طبق معمول امیرمهدی هستم :)
به خاطر تاخیر عذر خواهی می کنم
خب تا جایی پیش رفتیم که به سایت request بزنیم و محتواش رو ذخیره کنیم. ولی خب از این جا به بعد می خوایم محتوا ی سایت رو بخونیم و باهاش کار کنیم. برای این کار از لایبری bs4 (BeautifulSoup 4) استفاده می کنیم برای استفاده کردن از کتابخونه با خط زیر ایمپورتش می کنیم :
from bs4 import BeautifulSoup
حالا ما می خوایم عناصر صفحه رو تجزیه کنیم. یا به اصطلاح پارسش کنیم. مثلا یک مثالش در دنیای واقعای و باحال گونش اینه که ما یک سوپ داریم میدیمش به bs4 میگیم تمام هویجاش رو به ما بده :)) پیازش رو به ما بده:) ما توی خط کد زیر دیتای requestمون رو به bs4 میدیم تا بعدن بتونیم دیتامون رو پارس کینم یا مثالش این هست که بهش بگیم تمام تگ های A سایت رو بهمون بده. این خط کد رو به بقیه ی کد هامون اضافه می کنیم تا بتونیم بعدن دیتامون رو پارس کنیم ! :
soup = BeautifulSoup(site.text, 'html.parser')
حالا چجوری می تونیم بخونیم چیزای مختلفو ازش بخونیم؟ این جا یه مثال داریم، که می خوایم توش تمام تگ های a رو که href دارن رو در بیاریم :)(همه ی لینک ها)
for link in soup.find_all("a", href=True):
print(link[''href'])
تا این جا ما الان یاد گرفتیم که چجوری تگ ها رو جدا کنیم و بخونیم. یعنی شما می تونید ریکوءست بزنید و حالا به صورت مقدماتی تگ ها رو فیلتر کنین و دیتا رو بخونین :)
مطلبی دیگر از این انتشارات
چطور توی پایتون بازی بسازیم؟ - قسمت سوم
مطلبی دیگر از این انتشارات
آموزش گرفتن اطلاعات با API
مطلبی دیگر از این انتشارات
طراحی سایت با پایتون قسمت ۱