برنامه نویسی ساده :) یخورده دواپس :) پایتون، گو، علاقمند/دوستدار/استفاده کننده گنو/ لینوکس :) خیلی علاقمند به یادگیری و یاد دادن:) ایمیل من: a.tafreshi440@gmail.com تلگرام من: Amirmahdi_tafreshi@
یه کوچولو وب اسکرپینگ با پایتون:) (۳)
سلام طبق معمول امیرمهدی هستم :)
به خاطر تاخیر عذر خواهی می کنم
خب تا جایی پیش رفتیم که به سایت request بزنیم و محتواش رو ذخیره کنیم. ولی خب از این جا به بعد می خوایم محتوا ی سایت رو بخونیم و باهاش کار کنیم. برای این کار از لایبری bs4 (BeautifulSoup 4) استفاده می کنیم برای استفاده کردن از کتابخونه با خط زیر ایمپورتش می کنیم :
from bs4 import BeautifulSoup
حالا ما می خوایم عناصر صفحه رو تجزیه کنیم. یا به اصطلاح پارسش کنیم. مثلا یک مثالش در دنیای واقعای و باحال گونش اینه که ما یک سوپ داریم میدیمش به bs4 میگیم تمام هویجاش رو به ما بده :)) پیازش رو به ما بده:) ما توی خط کد زیر دیتای requestمون رو به bs4 میدیم تا بعدن بتونیم دیتامون رو پارس کینم یا مثالش این هست که بهش بگیم تمام تگ های A سایت رو بهمون بده. این خط کد رو به بقیه ی کد هامون اضافه می کنیم تا بتونیم بعدن دیتامون رو پارس کنیم ! :
soup = BeautifulSoup(site.text, 'html.parser')
حالا چجوری می تونیم بخونیم چیزای مختلفو ازش بخونیم؟ این جا یه مثال داریم، که می خوایم توش تمام تگ های a رو که href دارن رو در بیاریم :)(همه ی لینک ها)
for link in soup.find_all("a", href=True):
print(link[''href'])
تا این جا ما الان یاد گرفتیم که چجوری تگ ها رو جدا کنیم و بخونیم. یعنی شما می تونید ریکوءست بزنید و حالا به صورت مقدماتی تگ ها رو فیلتر کنین و دیتا رو بخونین :)
مطلبی دیگر از این انتشارات
واقعا فقط فریمورک بزرگ تر ها خوبن؟!
مطلبی دیگر از این انتشارات
ترسیم اشکال هندسی بر روی تصاویر با python
مطلبی دیگر از این انتشارات
پایتون با جلو زدن از جاوا، به دومین زبان پر طرفدار گیت هاب تبدیل شد