یه کوچولو وب اسکرپینگ با پایتون‌:) (۲)

سلام طبق معمول امیرمهدی هستم :)

بریم شروع کنیم.

وب اسکرپینگ اقلب ۲ بخشه. یسری وقتا برای اتومیشن و ... و یسری وقتا برای جمع آوری داده و این جور چیزا :) برای اتومیشن، معمولا از سلنیوم استفاده می کنن چون باهاش تعامل با سایت راحت تره. ولی برای کار های ساده تر و کراول و اینا معمولا reauests و bs4. البته که از سلنیوم برای این کار ها هم میشه استفاده کرد.

فعلا ما هم می خوایم ساده شروع کنیم و قسمت دلار در بیاریم :). برنامه ای که می خوایم روش کار کنیم برنامه ای هست که بره و از این سایت قیمت دلار رو برای ما بگیره و بیاره و مثال هامون رو فعلا روی این برنامه پیش میریم.

خب اول از همه ما برای پردازش و استخراج داده باید به سایت ریکوئست بزنیم برای این کار از لایبری requets استفاده می کنیم پس خط زیر رو به برنامتون اضافه کنید :

import requets

بعد متغییری به نام url تعریف می کنیم و url مون رو میزاریم توش :

url = &quothttp://www.tgju.org/dollar-chart&quot

لایبری requests بخشی داره به نام session که برای ریکوئست زدن استفاده میشه اما خب دقیقا مثل یک سیسن هست :)‌ یعنی مثلا اگر ما با این سیسن توی جایی لاگین کنیم، لاگین می مونیم :) برای کار ما get خالص کافیه ولی خب مثال سیزن میشه این طوری :

session = requests.session()
site = session.get(url)

و با get :

site = requests.get(url)

کوتاه بود ولی تا این جا با ۴ تا خط کد تونستیم محتوای سایت رو بگیریم و در قسمت بعدی با bs4 روش کار انجام میدیم :)