خداحافظ pandas، از Terality استفاده کنید.
دوقلو شیطانی با سینتکسی مشابه اما تا 30 برابر سریعتر...
مانند همه چیز، هنگام کار با دادههای بزرگ، ما از اینکه چه پکیجی را انتخاب کنیم رنج میبریم. ابزار شماره یکی که به ذهن ما می رسد پانداس(pandas) است، پس از آن ابزارهایی مانند Dask, Vaex, Datatable, cuDF . اکنون باید ترالیتی(Terality) را به این لیست اضافه کنیم.
آیا ترالیتی یکی از آن پکیجهایی است که سعی می کند سرعت لاک پشت پانداس را به قیمت سادگی و انعطاف پذیری محبوب خود جایگزین کند؟
نه،ترالیتی همزاد شیطانی پانداس است که با ابرقدرتها متولد شده است. سینتکس آن با پانداس یکسان است اما با سرعت رعد و برق کار میکند و به سیستم شما وابسته نیست تا جادوی خود را انجام دهد.
ترالیتی چیست و چگونه کار می کند؟
ترالیتی یک موتور پردازش داده بدون سرور است که روی دستههای غول پیکر اجرا می شود. شما میتوانید با دیتاستی با هر اندازه عظیمی کار کنید، به سرعت و بدون نگرانی در مورد اندازه منابع روی دستهها یا زیرساختها.
این یعنی:
1. عملاً هیچ محدودیتی در حافظه وجود ندارد، بنابراین در اندازه دیتاست محدودیتی وجود ندارد.
2. برای پردازش صدها گیگابایت، حتی در یک دستگاه رم 4 گیگابایتی، فقط به یک اتصال اینترنت خوب نیاز دارید.
و مزیت اصلی ترالیتی این است که پکیج پایتون آن همان دستور پانداس را دارد.شما فقط باید یک خط کد را تغییر دهید تا از پانداس به ترالیتی سوییچ کنید.
وقتی که شما توابع پانداس را فراخوانی میکنید، پکیج Python درخواستهای HTTPS را به موتور ترالیتی ارسال میکند. موتور، دادهها و دستورات را پردازش میکند و نتیجه را پس میفرستد.
تنظیم نیز حدود یک دقیقه طول می کشد. شما کتابخانه را با pip نصب می کنید و API خود را وارد میکنید تا دستگاه خود را به موتور متصل کنید. همه چیز اینجا در این لینک است.
آماده کردن دیتاست:
پانداس در ژانویه 2008 معرفی شد، زمانی که بچه دیتاست های امروزی تنها چیزی بود که دانشمندان داده باید نگران آن میبودند.
اکنون، مردم باید با دیتاستهای عظیمی دست و پنجه نرم کنند و متوجه میشوند که پانداس توانایی مدیریت چنین دیتاستهایی را ندارد. ترالیتی اینجاست تا این مشکل پایه را حل کند.
به عنوان مثال، ما یک دیتاست ساده (دیتاست Kaggle TPS مه 2021) می گیریم و از آن نمونه برداری می کنیم تا 60 میلیون ردیف و 18 ستون داشته باشد.
import pandas as pd
df = pd.read_csv("data/train.csv")
large_df = df.sample(6 * 10 ** 7, replace=True) # 60 million rows
large_df.to_parquet( "data/tps_may_large.parquet", row_group_size=len(df) // 15, engine="pyarrow" )
ما دادهها را با فرمت Parquet ذخیره می کنیم زیرا نوشتن آن در CSV تا حد احمقانه ای بسیار خوش بینانه است. فایل حدوداً 7 گیگابایت خواهد بود که با استانداردهای امروزی هنوز بسیار کوچک است:
from pathlib import Path
size = Path("data/tps_may_large.parquet").stat().st_size
size_in_gb = size / 1024 ** 3
>>> round(size_in_gb, 2) 7.1
پانداس در مقابل ترالیتی: بارگیری داده:
مقایسه سرعت را با بارگذاری فایل Parquet در فضای کاری خود شروع خواهیم کرد.
عملکرد پانداس به شدت به CPU دستگاه شما بستگی دارد. دستگاه من AMD Ryzen 9 3900X با 12 هسته است - یک پردازنده بسیار پیشرفته که سریعتر از CPU های رایگان سرورهای Google Colab یا Kaggle است. بنابراین، می توان انتظار داشت که دستگاه من مبارزه خوبی با سرورهای مجازی ترالیتی داشته باشد.
import pandas as pd
%%time
df = pd.read_parquet("data/tps_may_large.parquet")
من دادهها را از حافظه محلی با پانداس خواندم.
در ترالیتی، من داده ها را از یک بسته Amazon S3 خواندم:
import terality as te
%%time
df_te = te.read_parquet("s3://sample-bucket-for-medium/tps_may_large.parquet")
حتی اگر بتوانید با فایلهای محلی کار کنید، ترالیتی با فایلهای Amazon S3 یا Google Cloud بهترین کار را میکند.
همانطور که قبلاً اشاره کردم، سرعت ترالیتی به سرعت اینترنت شما بستگی دارد، نه قدرت CPU. خواندن فایل Parquet از روی حافظه به معنای ارسال 7 گیگابایت داده به موتور است که ایده آل نیست.
سرعت اینترنت در کشور ما ضعیف است، بنابراین تکلیف S3 مشخص است. در اینجا نتایج آمده است:
در حال حاضر، ترالیتی کمی عقب است، که دلیل آن عمدتاً سرعت اینترنت و قدرت CPU من است. بیایید سایر عملیات سنگین محاسباتی رایج را برای مقایسه بیشتر انجام دهیم.
عملیاتهای متداول پانداس:
قبل از اینکه نتایج محلی خود را نشان دهم، بیایید به نحوه عملکرد ترالیتی در برابر پانداس و جایگزین های قدرتمند آن در معیار شناخته شده h2o با استفاده از یک دیتاست 50 گیگابایتی نگاه کنیم.
در اینجا نتیجه یک عملیات groupby پیشرفته را مشاهده می کنید:
همانطور که میبینید، فقط ترالیتی میتواند درست کار کند در حالی که دیگر پکیجها درست کار نمیکنند و خطاهای ناخوشایند حافظه را نشان میدهند. همین امر برای عملیات پیوستن (join) نیز صادق است:
البته، همه، دستگاههای 128 گیگابایتی لوکس را ندارند، بنابراین من فقط آزمایشها را روی دستگاه ساده 32 گیگابایتی خود نشان میدهم:
گروهبندی (Grouping):
%%time
df.groupby("cat2").mean()
مرتبسازی (Sorting):
%%time
df.sort_values(by="cont5", ascending=False)
ایجاد یک ستون جدید:
%%time df["new"] = df["cont0"].apply(lambda x: np.sqrt(np.exp(x)))
df["new"].sample(5)
145053 1.40283
286303 1.27540
103920 1.16384
85100 1.29126
216857 1.17710
Name: new, dtype: float64
جایگزین کردن (Replacing):
%%time
df.replace(["A", "B", "C"], ["AA", "BB", "CC"], inplace=True)
همانطور که گفتم، ماشین من به خوبی جنگید اما همچنان در تمام عملیاتها شکست خورد.
هشدارها و قیمت گذاری:
اگرچه ترالیتی دارای سینتکس یکسانی است، اما برخی از توابع پانداس هنوز پیاده سازی نشده اند.
شما می توانید انتظار داشته باشید که حدود 80 تا 90 درصد از تمام متدهای DataFrames و Series روی ساختار داده ترالیتی نیز کار کنند. بیشتر توابع موجود در فضای پانداس (آنهایی که با pd.some_function نامیده می شوند) نیز کار میکنند. با توجه به اینکه ترالیتی هنوز در مرحله بتا است، این کار کوچکی نیست.
شاید قبلاً آن را حدس زده باشید، اما ترالیتی یک نرم افزار فریمیوم است. یعنی طرح رایگان به شما 200 گیگابایت پهنای باند میدهد، اما باید برای هر چیز بزرگتری هزینه کنید.
دیتاست های امروزی حدود 68 گیگابایت حافظه عمیق(deep memory) اشغال میکند. (به df.info(memory_usage='deep') مراجعه کنید)، بنابراین طرح رایگان من را خیلی سریع مصرف کرد. با این حال، تیم ترالیتی به اندازه کافی مهربان بود که طرح من را ارتقا داد و من را قادر ساخت تا آزمایشات این مقاله را به پایان برسانم.
پس از نوشتن این مقاله، ترالیتی برنامه های قیمت گذاری خود را که در تصویر نشان داده شده است، به روز کرد.
نتیجهگیری:
بله، ترالیتی عالی است – هیچ ابزار دیگری وجود ندارد که شباهت آن به پانداس را داشته باشد. موتور بدون محدودیت حافظه آن بسیار عالی است.
اما ترالیتی چیزی نیست که بتوانید در اوقات فراغت خود آن را به آتش بکشید و بعد آن را سر هم بندی کنید. طرح 200 گیگابایتی آنقدرها هم که فکر میکنید سخاوتمندانه به نظر نمیرسد زیرا هر فراخوانی API مهم است، نه فقط خواندن دادهها.
در ابتدا، من به شما پیشنهاد میکنم یاد بگیرید که چگونه از خود پانداس بهترین بهره را ببرید و آن را در سریع ترین زمان ممکن بسازید. فقط زمانی که شروع به دریافت خطاهای حافظه کردید و حتی منتظر ساده ترین محاسبات هستید، زمان آن فرا رسیده است که به دنبال جایگزین بگردید.
ترالیتی باید یکی از انتخابهای برتر باشد زیرا سریعترین و سادهترین انتخاب است و عملاً هیچ منحنی یادگیری ندارد.
مطلبی دیگر از این انتشارات
چگونگی کارکرد NLP
مطلبی دیگر از این انتشارات
معرفی الگوریتم های ماشین لرنینگ با استفاده از scikit-learn
مطلبی دیگر از این انتشارات
معرفی کتابخانه Matplotlib (قسمت اول)