ویرگول
ورودثبت نام
محمد فاتحی
محمد فاتحیعلاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/
محمد فاتحی
محمد فاتحی
خواندن ۲ دقیقه·۵ سال پیش

اتصال به پایگاه داده اوراکل در PySpark

گاهی از اوقات نیاز است تا در پایتون مستقیما به پایگاه داده وصل شوید و داده ها را بخوانید. برای راه اندازی PySpark در ابتدا نیاز به یکسری تنظیمات است.

ابتدا نیاز است تا اسپارک را از اینجا دریافت کنید.

پیشنهاد می شود فایل spark-3.1.1-bin-hadoop2.7.tgz را در مسیری مثل مسیر

C:\opt\spark\spark-2.1.0-bin-hadoop2.7

اکسترکت کنید. در ادامه SPARK_HOME را در قسمت بخش مدیریت Environment Variables برابر

C:\opt\spark\spark-2.1.0-bin-hadoop2.7

همچنین HADOOP_HOME را نیز برابر

C:\opt\spark\spark-2.1.0-bin-hadoop2.7

قرار دهید. همچنین نیاز است تا JAVA_HOME را برابر مسیر مانند مسیر زیر قرار دهید:

C:\Program Files\Java\jdk1.8.0_212

همچنین C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin را به path در قسمت بخش مدیریت Environment Variables اضافه کنید.

همچنین از اینجا فایل winutils.exe را دریافت کنید و در مسیر

C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin

قرار دهید.

در پایان نیز دستور زیر را اجرا کنید:

pip install pyspark

وقتی در پایتون از PySpark استفاده می کنید نیاز است مراحل زیر را دنبال کنید. ابتدا کتابخانه های لازم را فراخوانی کنید:

from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, Row import os


در ادامه SQLContext رو ایجاد کنید.

spark_config = SparkConf().setMaster(&quotlocal[2]&quot).setAppName(&quotMyProject&quot) sc = SparkContext(conf = spark_config) sqlctx = SQLContext(sc)

در خط اول loacl به این معنا است که قصد داریم اپلیکیشن MyProject را روی loacl machine ایی که از local Spark استفاده می کند و به صورت 2 نخی است (multithreading) اجرا کنیم.

در ادامه متغیرهای مربوطه را تنظیم می کنیم:

os.environ['ORACLE_DRIVER_PATH'] = &quotC:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc6.jar&quot

در این مرحله تنظیمات مربوط به پایگاه داده را وارد می کنیم:

df = sqlctx.read.format(&quotjdbc&quot).options(url=&quotjdbc:oracle:thin:@<>:<>:<>&quot ,driver = &quotoracle.jdbc.driver.OracleDriver&quot ,dbtable = &quotaccount&quot ,user=&quot....&quot ,password=&quot...&quot).load()

توجه داشته باشید که در پوشه jars واقع در مسیر spark-1..5.2-bin-hadoop2.6 فایل ojdbc6.jar را وارد کنید.

اوراکلپایتون
۱
۰
محمد فاتحی
محمد فاتحی
علاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/
شاید از این پست‌ها خوشتان بیاید