
گاهی از اوقات نیاز است تا در پایتون مستقیما به پایگاه داده وصل شوید و داده ها را بخوانید. برای راه اندازی PySpark در ابتدا نیاز به یکسری تنظیمات است.
ابتدا نیاز است تا اسپارک را از اینجا دریافت کنید.

پیشنهاد می شود فایل spark-3.1.1-bin-hadoop2.7.tgz را در مسیری مثل مسیر
C:\opt\spark\spark-2.1.0-bin-hadoop2.7
اکسترکت کنید. در ادامه SPARK_HOME را در قسمت بخش مدیریت Environment Variables برابر
C:\opt\spark\spark-2.1.0-bin-hadoop2.7
همچنین HADOOP_HOME را نیز برابر
C:\opt\spark\spark-2.1.0-bin-hadoop2.7
قرار دهید. همچنین نیاز است تا JAVA_HOME را برابر مسیر مانند مسیر زیر قرار دهید:
C:\Program Files\Java\jdk1.8.0_212
همچنین C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin را به path در قسمت بخش مدیریت Environment Variables اضافه کنید.
همچنین از اینجا فایل winutils.exe را دریافت کنید و در مسیر
C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin
قرار دهید.
در پایان نیز دستور زیر را اجرا کنید:
pip install pyspark
وقتی در پایتون از PySpark استفاده می کنید نیاز است مراحل زیر را دنبال کنید. ابتدا کتابخانه های لازم را فراخوانی کنید:
from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, Row import os
در ادامه SQLContext رو ایجاد کنید.
spark_config = SparkConf().setMaster("local[2]").setAppName("MyProject") sc = SparkContext(conf = spark_config) sqlctx = SQLContext(sc)
در خط اول loacl به این معنا است که قصد داریم اپلیکیشن MyProject را روی loacl machine ایی که از local Spark استفاده می کند و به صورت 2 نخی است (multithreading) اجرا کنیم.
در ادامه متغیرهای مربوطه را تنظیم می کنیم:
os.environ['ORACLE_DRIVER_PATH'] = "C:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc6.jar"

در این مرحله تنظیمات مربوط به پایگاه داده را وارد می کنیم:
df = sqlctx.read.format("jdbc").options(url="jdbc:oracle:thin:@<>:<>:<>" ,driver = "oracle.jdbc.driver.OracleDriver" ,dbtable = "account" ,user="...." ,password="...").load()
توجه داشته باشید که در پوشه jars واقع در مسیر spark-1..5.2-bin-hadoop2.6 فایل ojdbc6.jar را وارد کنید.