برنامهنویس ساده، دانشجوی ریاضی، دوستدار واستفادهکننده نرمافزار آزاد :) خیلی علاقمند به یادگیری و یاد دادن :) «نه به سانسور» ایمیل من: a.tafreshi440@gmail.com
یه کوچولو وب اسکرپینگ با پایتون:) (۳)

سلام طبق معمول امیرمهدی هستم :)
به خاطر تاخیر عذر خواهی می کنم
خب تا جایی پیش رفتیم که به سایت request بزنیم و محتواش رو ذخیره کنیم. ولی خب از این جا به بعد می خوایم محتوا ی سایت رو بخونیم و باهاش کار کنیم. برای این کار از لایبری bs4 (BeautifulSoup 4) استفاده می کنیم برای استفاده کردن از کتابخونه با خط زیر ایمپورتش می کنیم :
from bs4 import BeautifulSoupحالا ما می خوایم عناصر صفحه رو تجزیه کنیم. یا به اصطلاح پارسش کنیم. مثلا یک مثالش در دنیای واقعای و باحال گونش اینه که ما یک سوپ داریم میدیمش به bs4 میگیم تمام هویجاش رو به ما بده :)) پیازش رو به ما بده:) ما توی خط کد زیر دیتای requestمون رو به bs4 میدیم تا بعدن بتونیم دیتامون رو پارس کینم یا مثالش این هست که بهش بگیم تمام تگ های A سایت رو بهمون بده. این خط کد رو به بقیه ی کد هامون اضافه می کنیم تا بتونیم بعدن دیتامون رو پارس کنیم ! :
soup = BeautifulSoup(site.text, 'html.parser')حالا چجوری می تونیم بخونیم چیزای مختلفو ازش بخونیم؟ این جا یه مثال داریم، که می خوایم توش تمام تگ های a رو که href دارن رو در بیاریم :)(همه ی لینک ها)
for link in soup.find_all("a", href=True):
print(link[''href'])تا این جا ما الان یاد گرفتیم که چجوری تگ ها رو جدا کنیم و بخونیم. یعنی شما می تونید ریکوءست بزنید و حالا به صورت مقدماتی تگ ها رو فیلتر کنین و دیتا رو بخونین :)
مطلبی دیگر از این انتشارات
پایتون با جلو زدن از جاوا، به دومین زبان پر طرفدار گیت هاب تبدیل شد
مطلبی دیگر از این انتشارات
آموزش سوکت در پایتون
مطلبی دیگر از این انتشارات
چطور توی پایتون بازی بسازیم؟ - قسمت سوم