خواندن ۴ دقیقه·۶ سال پیش

استخراج اطلاعات از وب (وب اسکرپینگ) با پایتون و سلنیوم

با زبان برنامه نویسی پایتون قادر خواهیم بود داده ها و اطلاعات را از وب سایت ها بازیابی، پردازش و با عناصر یک وب سایت تعامل کنیم. وب اسکرپینگ ابزاری برای تبدیل داده های بدون ساختار در وب به داده های ساخت یافته قابل خواندن برای ماشین و آماده برای تجزیه و تحلیل است. در اینجا سعی می کنیم به بخشی از توانایی های زبان برنامه نویسی پایتون و کتابخانه سلنیوم اشاره کنیم.

ابتدا باید پایتون را از آدرس زیر مرتبط با سیستم عامل مورد نظر دانلود و نصب نماییم.

http://www.python.org/download/

سپس با ابزار pip کتابخانه سلنیوم را نصب میکنیم (دقت داشته باشیم برای نصب کتابخانه باید اتصال به اینترنت داشته باشیم)

pip install selenium

کتابخانه سلنیوم قادر است یک مرورگر وب را برای تعامل با وب سایت مورد نظر ایجاد کند. برای کار با سلنیوم، باید به درایور مرورگر دسترسی داشته باشیم. بطور پیش فرض درایورهای Chrome ، Firefox ، Edge و Safari موجود است.

برای استفاده از هر کدام می توانیم درایور مورد نظر را را دانلود و سپس در برنامه خود آدرس دهی کنیم. اطلاعات بیشتر در آدرس زیر موجود می باشد.

https://selenium.dev/documentation/en/webdriver/driver_requirements/

خوب حالا زمان نوشتن یک برنامه ساده با پایتون و سلنیوم فرا رسیده است. (در اینجا از داریور کروم استفاده شده است)

from selenium.webdriver import Chrome
driver = Chrome()

حالا در ادامه می خواهیم وب سایت اینستاگرام را باز کنیم به و با استفاده از برنامه بصورت خودکار لاگین کنیم.هی استفاده نمایید.

driver = Chrome(executable_path='/path/to/chromedriver')

حالا در ادامه میخواهیم سایت #اینستاگرام را باز کنیم و با استفاده از برنامه بصورت خودکار لاگین کنیم.

ابتدا باید صفحه مورد نظر را لود کنیم که به سادگی با دستور get این عملیات را انجام می دهیم.

driver.get('https://www.instagram.com/accounts/login/')

سپس بخش هایی را که باید با پست الکترونیک یا نام کاربری و کلمه عبور تکمیل شوند در صفحه لود شده پیدا و مقادیر مورد نظر خود را در آن درج نماییم.

emailInput = driver.find_elements_by_css_selector('form input')[0]
passwordInput = driver.find_elements_by_css_selector('form input')[1]

شاید این بخش سخت ترین قسمت کار باشد و به آشنایی با برنامه نویسی در بستر وب نیاز دارد. با این حال روشی که را در اینجا آموزش می دهیم و استفاده می کنیم تا اندازه زیادی شما را از پیچیدگی های بررسی کد های HTML بی نیاز می کند.

چند روش برای پیدا کردن عناصر در کتابخانه سلنیوم وجود دارد.

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

اگر بخواهیم چند عنصر را پیدا کنیم همین دستورات با یک s استفاده می شوند که مشخص است خروجی توابع نیز یک چندگانه یا لیست می باشد.

find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

اطلاعات بیشتر را از لینک زیر می توانید بدست آوردید

https://selenium-python.readthedocs.io/locating-elements.html

اگر نام یا شناسه عنصر مورد نظر را داشته باشیم بهترین روش استفاده از توابع find_element_by_id و find_element_by_name می باشد، ولی هنگامی که id و name مناسب وجود نداشته باشد می توان از تابع find_element_by_xpath استفاده نمود.

در واقع xpath برای اسناد XML و XHTML استفاده می شود ولی برای شناسایی عناصر بصورت مطلق یا نسبی و حتی با id و name نیز می توان بصورت مشخص از آن استفاده نمود. به مثال زیر توجه کنید.

<html>
<body>
<form id="loginForm">
<input name="username" type="text" />
<input name="password" type="password" />
<input name="continue" type="submit" value="Login" />
<input name="continue" type="button" value="Clear" />
</form>
</body>
<html>

آدرس دهی عناصر بصورت زیر می باشد.

login_form = driver.find_element_by_xpath("/html/body/form[1]")
login_form = driver.find_element_by_xpath("//form[1]")
login_form = driver.find_element_by_xpath("//form[@id='loginForm']")

شاید یک مقدار گیج کننده باشد به همین خاطر پیشنهاد خیلی ساده استفاده از addon هاست که با یک کلیک بتوان آرگومان تابع را بدست آورد. دو تا از بهترین addon ها Ranorex Selocity وxPath Finder هستند. با نصب این addon ها روی مرورگر می توانید xpath یک عنصر را بدست آوردید.

همانطور که در تصویر هم مشخص هست می توان مقدار CSS را برای تابع css_selector نیز بدست آورد.

حالا وقتش رسیده که یک برنامه برای ورود خودکار به صفحه لاگین سایت اینستاگرام بطور نمونه بنویسیم و سپس اطلاعات یک کاربر را از صفحه اش استخراج می کنیم.

ابتدا با استفاده از Ranorex Selocity عناصر username و password را بدست آورده و نام کاربری و کلمه عبور را با تابع send_keys اضافه می کنیم و سپس کلید Enter را ارسال کرده تا فرم ارسال شود.

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
driver = Chrome(executable_path="./chromedriver")
driver.get("https://www.instagram.com/accounts/login/?next=/explore/")
xpath_email = "/html//div[@id='react-root']/section/main[@role='main']//article[@class='agXmL']//form[@method='post']//input[@name='username']"
xpath_password = "/html//div[@id='react-root']/section/main[@role='main']//article[@class='agXmL']//form[@method='post']//input[@name='password']"
emailInput = driver.find_element_by_xpath(xpath_email)
passwordInput = driver.find_element_by_xpath(xpath_password)
emailInput.send_keys("email")
passwordInput.send_keys("password")
passwordInput.send_keys(Keys.ENTER)

بعد از لاگین موفق صفحه اینستاگرام virgool.io را لود کرده و مقادیر posts و followers و following را استخراج می نماییم.

driver.get("https://www.instagram.com/virgool.io/")
xpath_data = "//div[@id='react-root']/section/main[@role='main']//section[@class='zwlfE']/ul"
data = driver.find_element_by_xpath(xpath_data)
print(data.text)

امیدوارم این مقاله برای شما مفید بوده باشد.

https://www.instagram.com/ehsanjalili/

پایتونسلنیوماینستاگرام

احسان جلیلی

شاید از این پست‌ها خوشتان بیاید

احسان جلیلی

خواندن ۴ دقیقه·۶ سال پیش

استخراج اطلاعات از وب (وب اسکرپینگ) با پایتون و سلنیوم

ابتدا باید پایتون را از آدرس زیر مرتبط با سیستم عامل مورد نظر دانلود و نصب نماییم.

http://www.python.org/download/

pip install selenium

https://selenium.dev/documentation/en/webdriver/driver_requirements/

خوب حالا زمان نوشتن یک برنامه ساده با پایتون و سلنیوم فرا رسیده است. (در اینجا از داریور کروم استفاده شده است)

from selenium.webdriver import Chrome
driver = Chrome()

driver = Chrome(executable_path='/path/to/chromedriver')

حالا در ادامه میخواهیم سایت #اینستاگرام را باز کنیم و با استفاده از برنامه بصورت خودکار لاگین کنیم.

ابتدا باید صفحه مورد نظر را لود کنیم که به سادگی با دستور get این عملیات را انجام می دهیم.

driver.get('https://www.instagram.com/accounts/login/')

emailInput = driver.find_elements_by_css_selector('form input')[0]
passwordInput = driver.find_elements_by_css_selector('form input')[1]

چند روش برای پیدا کردن عناصر در کتابخانه سلنیوم وجود دارد.

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

اطلاعات بیشتر را از لینک زیر می توانید بدست آوردید

https://selenium-python.readthedocs.io/locating-elements.html

<html>
<body>
<form id="loginForm">
<input name="username" type="text" />
<input name="password" type="password" />
<input name="continue" type="submit" value="Login" />
<input name="continue" type="button" value="Clear" />
</form>
</body>
<html>

آدرس دهی عناصر بصورت زیر می باشد.

login_form = driver.find_element_by_xpath("/html/body/form[1]")
login_form = driver.find_element_by_xpath("//form[1]")
login_form = driver.find_element_by_xpath("//form[@id='loginForm']")

همانطور که در تصویر هم مشخص هست می توان مقدار CSS را برای تابع css_selector نیز بدست آورد.

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
driver = Chrome(executable_path="./chromedriver")
driver.get("https://www.instagram.com/accounts/login/?next=/explore/")
xpath_email = "/html//div[@id='react-root']/section/main[@role='main']//article[@class='agXmL']//form[@method='post']//input[@name='username']"
xpath_password = "/html//div[@id='react-root']/section/main[@role='main']//article[@class='agXmL']//form[@method='post']//input[@name='password']"
emailInput = driver.find_element_by_xpath(xpath_email)
passwordInput = driver.find_element_by_xpath(xpath_password)
emailInput.send_keys("email")
passwordInput.send_keys("password")
passwordInput.send_keys(Keys.ENTER)

بعد از لاگین موفق صفحه اینستاگرام virgool.io را لود کرده و مقادیر posts و followers و following را استخراج می نماییم.

driver.get("https://www.instagram.com/virgool.io/")
xpath_data = "//div[@id='react-root']/section/main[@role='main']//section[@class='zwlfE']/ul"
data = driver.find_element_by_xpath(xpath_data)
print(data.text)

امیدوارم این مقاله برای شما مفید بوده باشد.

https://www.instagram.com/ehsanjalili/

پایتونسلنیوماینستاگرام

احسان جلیلی

شاید از این پست‌ها خوشتان بیاید