خواندن ۴ دقیقه·۵ سال پیش

۱۱ کتابخانه برتر پایتون که باید در مورد علوم داده بدانید

Mikhail Raevskiy

Aug 18, 2020

یکی از دلایل ارزشمند بودن زبان پایتون برای علوم داده وجود مجموعه‌های عظیم از کتابخانه‌های تحلیل و تصویرسازی داده‌ است . در این مقاله به شرح محبوب‌ترین‌ها خواهیم پرداخت .

TensorFlow

فریم ورک ( چهارچوب ) یادگیری عمیق TensorFlow که توسط گوگل توسعه داده شده است ، بدون شک محبوب‌ترین ابزار برای آموزش شبکه عصبی است . گوگل به طور فعال از چهارچوب خاص خود در خدمات گسترده‌ای مانند gmail و google Translate استفاده می‌کند . همچنین TensorFlow توسط برند‌هایی مانند Dropbox ، Xiaomi ، Airbnb ، Uber و ... استفاده می‌شود .

با TensorFlow می‌توانید قسمت‌های جداگانه یک شبکه عصبی را تصویرسازی تصویر سازی کنید.
ماژول‌های TensorFlow می‌توانند به صورت مستقل ساخته شوند .
TensorFlow به شما این امکان را می‌دهد که شبکه عصبی را هم بر روی CPU و هم بر روی GPU آموزش دهید .
یک تیم بزرگ همواره در تلاش هستند تا هم ویژگی ها را با ثبات اثبات کنند و هم ویژگی‌های جدید به آن اضافه کنند .

Scikit-Learn

یک کتابخانه محبوب یادگیری ماشین است که در زبان‌های پایتون ، C و C++ نوشته شده است . با یک انتخاب مشترک برای حل مشکلات کلاسیک یادگیری ماشین که هم در سیستم‌های صنعتی و هم در تحقیقات علمی استفاده می‌شود .

دارای طیف گسترده‌ای از الگوریتم‌های یادگیری تحت نظارت و بدون نظارت .
Scikit-Learn به طور تخصصی در الگوریتم‌های یادگیری ماشین حضور دارد . وظایف کتابخانه بارگیری ، پردازش ، دستکاری داده‌ها و تصویرسازی را شامل نمی‌شود .
دارای جامعه‌ی بزرگ و مستندات دقیق

NumPy

NumPy یکی از محبوب ترین کتابخانه های پایتون برای یادگیری ماشین است. TensorFlow و سایر کتابخانه ها از آن برای اجرای عملیات روی آرایه‌های چند بعدی به صورت داخلی استفاده می‌کنند.

الگوریتم های ریاضی اجرا شده در زبان های گزاره‌ای و تفسیر شده (پایتون) اکثرا بسیار کندتر از آن‌هایی است که در زبان های کامپایل شده و محاسباتی اجرا می شوند. کتابخانه NumPy پیاده سازی الگوریتم محاسباتی بهینه شده برای کار با آرایه های چند بعدی را فراهم می کند.

Keras

اگر شما نیاز دارید که با سرعت و به راحتی یک مدل یادگیری عمیق را جمع کنید ، Keras یک انتخاب عالی است . P یک الحاقیه ( add-on ) در چهارچوب TensorFlow و Theano است. هدف این کتابخانه کار عملیاتی با شبکه های یادگیری عمیق است ، در حالی که به صورت فشرده ، مدولار و قابل توسعه طراحی شده است . Keras جدا از کتابخانه محاسبات علمی که به عنوان محاسبات بک‌اند استفاده می‌شود ، یک مجموعه انتزاعی بصری با سطح بالا را فراهم کرده که ساخت شبکه های عصبی را آسان می‌کند .

هم روی CPU و هم GPU به خوبی کار می‌کند.
تقریباً از تمام مدل‌های شبکه عصبی پشتیبانی می‌کند که می‌توانند برای ساخت مدل‌های پیچیده‌تر ترکیب شوند.
این پلتفرم به طور کامل در پایتون نوشته شده است ، یعنی می توانید از ابزارهای دیباگ استاندارد استفاده کنید.

PyTorch

یکی از بهترین گزینه‌ها برای کار با شبکه‌های عصبی است که رقیبی دیرینه برایTensorFlow است. در درجه اول توسط گروه هوش مصنوعی فیس بوک توسعه یافته است. PyTorch به عنوان چارچوب یادگیری عمیق در شبکه خصمانه مولد استفاده شد.

پشتیبانی ساده از GPU
در حالت GPU ، PyTorch بهینه سازی با کیفیت بالا را فراهم می‌سکند ، یک محیط زمان اجرا ( runtime ) با رابط برنامه نویسی کاربردی در ++ C وجود دارد.
پشتیبانی از اجرای محاسبات ناهمزمان.
دسترسی مستقیم به فریم‌ورک‌های ( چهارچوب نرم‌افزاری ) مبتنی بر ONNX ، ارائه دهنده ها و زمان اجرا ( runtimes ).

LightGBM

چارچوبی برای تقویت کردن گرادیان است ، یکی از محبوب ترین الگوریتم ها در رقابت ها و چالش‌های Kaggle . افزایش گرادیان یک روش یادگیری ماشین برای طبقه بندی و مشکلات رگرسیون است که یک مدل پیش بینی را در قالب مجموعه‌ای از مدل های پیش بینی (معمولاً درختان تصمیم گیری ) می سازد.

سرعت یادگیری سریع و کارایی بالا.
مصرف حافظه کم
پشتیبانی از محاسبات GPU و موازی
می توانید با مقدار بزرگی از داده‌ها کار کنید.

Pandas

کتابخانه‌ای است که ساختارهای با سطح بالا را برای کار با داده‌ها و طیف وسیعی از ابزار برای تجزیه و تحلیل آن‌ها را فراهم می‌کند. این کتابخانه این امکان را می‌دهد بسیاری از دستورات پیچیده را با مقدار کمی کد اجرا کرد : مرتب سازی و گروه بندی داده ها ، کار با داده‌های از دست‌رفته ، سری‌های زمانی و ... همه داده ها در قالب جدول‌های داده ارائه می‌شوند.

SciPy

SciPy برای محاسبات علمی و مهندسی از جمله کارهای مربوط به یادگیری ماشین ضروری است.

ویژگی ها : جستجوی مینیمم‌ها و ماکسیمم‌های توابع ، محاسبه انتگرال ، پشتیبانی از توابع خاص ، پردازش سیگنال و تصویر ، حل معادلات دیفرانسیل و ...
SciPy ارتباط نزدیک با NumPy دارد ، بنابراین از آرایه های NumPy به طور پیش فرض پشتیبانی می‌شود.
کتابخانه SciPy می تواند با PyTables ، یک پایگاه داده سلسله مراتبی که برای مدیریت مقدار زیادی داده در پرونده های HDF5 طراحی شده است ، تعامل داشته باشد.

Eli5

یک کتابخانه پایتون برای تصویرسازی و دیباگ کردن مدل‌های یادگیری ماشین با استفاده از API Unified است. پشتیبانی داخلی برای چند فریم‌ورک یادگیری ماشین و کتابخانه ها وجود دارد مانند : Scikit-Learn ، Keras، LightGBM که در بالا ذکر شده‌اند ذکر شده در بالا، و همچنین Xgboost، lightning و CatBoost.

NLTK (Natural Language Toolkit)

یک پکیج کتابخانه ها و برنامه‌های پردازشی نمادین و آماری Natural Language است. این کتابخانه با مستندات گسترده‌ای همراه است ، از جمله یک کتاب توضیح مفاهیم درون وظایف پردازشی Natural Language که می‌تواند با این پکیج انجام شود.

Pillow

Pillow یک نسخه بهبود یافته کتابخانه تصویر PIL (کتابخانه‌ای در Python) است و از انواع انواع فایل ها پشتیبانی می‌کند مانند PDF، WebP، PCX، PNG، JPEG، GIF، PSD، WebP، PCX، GIF، IM، EPS، ICO، BMP و ...

تعداد زیادی از ابزارهای فیلتر‌کردن را در خود دارد که می‌تواند برای وظایف بصری کامپیوتر مورد استفاده قرار گیرد.

پایتونکتابخانه پایتونعلوم داده

ایردا - IRDA

مرجع تخصصی آمار ایران

شاید از این پست‌ها خوشتان بیاید

ایردا - IRDA

خواندن ۴ دقیقه·۵ سال پیش

۱۱ کتابخانه برتر پایتون که باید در مورد علوم داده بدانید

Mikhail Raevskiy

Aug 18, 2020

TensorFlow

با TensorFlow می‌توانید قسمت‌های جداگانه یک شبکه عصبی را تصویرسازی تصویر سازی کنید.
ماژول‌های TensorFlow می‌توانند به صورت مستقل ساخته شوند .
TensorFlow به شما این امکان را می‌دهد که شبکه عصبی را هم بر روی CPU و هم بر روی GPU آموزش دهید .
یک تیم بزرگ همواره در تلاش هستند تا هم ویژگی ها را با ثبات اثبات کنند و هم ویژگی‌های جدید به آن اضافه کنند .

Scikit-Learn

دارای طیف گسترده‌ای از الگوریتم‌های یادگیری تحت نظارت و بدون نظارت .
Scikit-Learn به طور تخصصی در الگوریتم‌های یادگیری ماشین حضور دارد . وظایف کتابخانه بارگیری ، پردازش ، دستکاری داده‌ها و تصویرسازی را شامل نمی‌شود .
دارای جامعه‌ی بزرگ و مستندات دقیق

NumPy

Keras

هم روی CPU و هم GPU به خوبی کار می‌کند.
تقریباً از تمام مدل‌های شبکه عصبی پشتیبانی می‌کند که می‌توانند برای ساخت مدل‌های پیچیده‌تر ترکیب شوند.
این پلتفرم به طور کامل در پایتون نوشته شده است ، یعنی می توانید از ابزارهای دیباگ استاندارد استفاده کنید.

PyTorch

پشتیبانی ساده از GPU
در حالت GPU ، PyTorch بهینه سازی با کیفیت بالا را فراهم می‌سکند ، یک محیط زمان اجرا ( runtime ) با رابط برنامه نویسی کاربردی در ++ C وجود دارد.
پشتیبانی از اجرای محاسبات ناهمزمان.
دسترسی مستقیم به فریم‌ورک‌های ( چهارچوب نرم‌افزاری ) مبتنی بر ONNX ، ارائه دهنده ها و زمان اجرا ( runtimes ).

LightGBM

سرعت یادگیری سریع و کارایی بالا.
مصرف حافظه کم
پشتیبانی از محاسبات GPU و موازی
می توانید با مقدار بزرگی از داده‌ها کار کنید.

Pandas

SciPy

SciPy برای محاسبات علمی و مهندسی از جمله کارهای مربوط به یادگیری ماشین ضروری است.

ویژگی ها : جستجوی مینیمم‌ها و ماکسیمم‌های توابع ، محاسبه انتگرال ، پشتیبانی از توابع خاص ، پردازش سیگنال و تصویر ، حل معادلات دیفرانسیل و ...
SciPy ارتباط نزدیک با NumPy دارد ، بنابراین از آرایه های NumPy به طور پیش فرض پشتیبانی می‌شود.
کتابخانه SciPy می تواند با PyTables ، یک پایگاه داده سلسله مراتبی که برای مدیریت مقدار زیادی داده در پرونده های HDF5 طراحی شده است ، تعامل داشته باشد.

Eli5

NLTK (Natural Language Toolkit)

Pillow

پایتونکتابخانه پایتونعلوم داده

ایردا - IRDA

مرجع تخصصی آمار ایران

شاید از این پست‌ها خوشتان بیاید