۱۲ کتابخانه برتر پایتون برای علم داده در سال ۲۰۲۱

شکل ۱. انواع کتابخانه‌ها
شکل ۱. انواع کتابخانه‌ها
منتشر‌شده در: towardsdatascience به تاریخ ۱۷ آوریل ۲۰۲۱
لینک منبع: Top 12 Python Libraries For Data Science In 2021

چه شما مبتدی باشید و چه یک سرباز قدیمی که به دنبال حفظ روند کار است، این ۱۲کتابخانه پایتون ابزارهایی هستند که شما قطعا در جعبه‌ابزار دانش داده خود برای سال ۲۰۲۱ به آن‌ها نیاز دارید. به یاد داشته باشید که این لیست جامع نیست، بنابراین لطفا کتابخانه‌های مورد علاقه خود را در قسمت نظرات در زیر بنویسید اگر آن‌ها در لیست زیر نیستند!

مطالعه مقاله برگه تقلب پایتون برای دانشمندان داده (۲۰۲۱) توصیه می‌شود.

داده‌کاوی

نکته: هنگام اسکراپ کردن داده‌ها از وب، لطفا پیش از اسکراپ، عبارات و دستورالعمل‌های منابع داده‌ای خود را بررسی کنید. پیروی از تمام قوانین پروانه‌دهی و حق کپی که منبع داده ممکن است داشته باشد، مهم است.

۱. کتابخانه Scrapy

اسکراپی یکی از محبوب‌ترین ابزارها برای توسعه‌دهندگان پایتون است که به دنبال جمع‌آوری داده ساختار یافته از وب هستند. اسکراپی برای ساخت کاوشگرهای وب عالی است که می‌توانند داده‌های ساختاری را از صفحات وب هر شکلی جمع‌آوری کنند، و این یک ابزار عالی برای جمع‌آوری داده‌ها است.

۲. کتابخانه BeautifulSoup

یک کتابخانه بزرگ دیگر برای جمع‌آوری و سازماندهی داده‌های وب، BeautifulSoup اسکراپ وبسایت‌ها را آسان می‌کند. BeautifulSoup برای صفحات وب که از شخصیت‌های خاص استفاده می‌کنند عالی است چون شما می‌توانید به راحتی فرمت‌های مختلف رمزگذاری را به وظایف خود در هنگام جمع‌آوری داده‌های وب منتقل کنید.

۳. کتابخانه Requests

من را از مد افتاده بنامید، اما در زمینه جمع‌آوری داده‌های مبتنی بر وب، به خصوص از API ها، چیزی شبیه به کتابخانه Requests وجود ندارد. Requests تعامل با API ها و دیگر منابع HTML را در راه‌حل‌های ساده و یک خطی آسان می‌کند.

پردازش داده‌ها

۴. کتابخانه پانداس

پانداس (Pandas) یک کتابخانه منبع باز است که یکی از پر‌استفاده‌ترین کتابخانه‌های علم داده است، و با بیش از ۲۳۰۰ مشارکت‌کننده در Github repo خود، این کتابخانه به زودی از رده خارج نمی‌شود. Pandas پردازش داده و مشکلات را آسان می‌کند، داده را از هزاران منبع مختلف مانند CSV، SQL، یا Json جذب می‌کند، ویژگی‌های دستکاری‌های زیادی مانند رسیدگی به داده‌های از دست رفته، محدود کردن فایل‌های داده از دست رفته، و دستکاری ستون‌ها، و حتی فراهم کردن برخی تجسم‌های پایه اما بسیار مفید را به شما می‌دهد.

۵. کتابخانه Numpy

اگر شما به دنبال انجام هر گونه ریاضیات پیشرفته به هر یک از مجموعه داده‌های خود هستید، پس باید کتابخانه اعداد را وارد کنید. به شدت در یادگیری عمیق و یادگیری ماشین استفاده می‌شود، این یک ضرورت مطلق برای هر الگوریتم و تجزیه و تحلیل سنگین محاسباتی است. آرایه‌های چند بعدی اعداد نیز مسائل پیچیده را به مراتب ساده‌تر از لیست‌های استاندارد می‌سازند.

۶. کتابخانه Scipy

کتابخانه Scipy از Numpy گرفته شده است و همچنین می‌تواند تعداد زیادی محاسبات پیچیده ریاضی را انجام دهد.
اگر به دنبال پردازش تصویر چند بعدی، معادلات دیفرانسیل، یا جبر خطی باشید، این کتابخانه زندگی شما را بسیار ساده‌تر خواهد کرد.

ممکن است به مطالعه مقاله توسعه مبتنی بر ترانک (Trunk) چیست؟ علاقمند باشید.

یادگیری ماشینی

۷. کتابخانه Keras

حالا به اعماق قضیه می‌رویم. کراس به عنوان کتابخانه go-to به کتابخانه‌ای برای یادگیری عمیق، به ویژه زمانی که به شبکه‌های عصبی می‌رسد، ظاهر شده است. این روش در بالای TensorFlow ساخته شده است، اما برای کاربرپسند بودن بیشتر ساخته شده است، و کاربران را قادر می‌سازد تا آزمایش‌های سبک و سریع با API های یادگیری عمیق خود انجام دهند.

۸. کتابخانه TensorFlow

تنسوری‌فلو به دلیل استفاده از آرایه‌های چند بعدی که آن تنسورها را فرا می‌خواند، نام گذاری شده است. دلیلی وجود دارد که همه شرکت‌های فن‌آوری بزرگ ازtensorFlow برای الگوریتم‌های شبکه عصبی خود استفاده می‌کنند: این کتابخانه می‌تواند عملا هر کاری را انجام دهد. موارد استفاده بزرگ شامل آنالیز احساسی، تشخیص صدا، تشخیص ویدئو، آنالیز سری زمانی، و تشخیص چهره، در میان چیزهای دیگر است. تنسوری‌فلو توسط گوگل توسعه داده شد، بنابراین این کتابخانه به زودی از رده خارج نخواهد شد.

۹. کتابخانه PyTorch

در‌حالی‌که تنسوری‌فلو از گراف‌های استاتیک استفاده می‌کند، پایتورچ می‌تواند گراف‌ها را در مسیر تعریف و دستکاری کند، که آن را کمی انعطاف‌پذیرتر می‌کند. با وجود رویکرد فیثونی بیشتر پایتورچ نسبت به تنسوری‌فلو، مورد دوم به سادگی محبوب‌تر است، بنابراین پیدا کردن منابع بر روی آن آسان‌تر است. اگر شما به دنبال چیزی انعطاف‌پذیر و کمی راحت‌تر از tensorFlow هستید، این کتابخانه (که توسط فیسبوک ایجاد شده است) یک منبع عالی است.

شاید مطالعه مقاله ۳ نکته اساسی در یادگیری علوم داده برای شما مفید باشد.

تجسم

۱۰. کتابخانه Bokeh

برخی از شگفت‌انگیزترین تجسم‌های ایجاد شده توسط کد پایتون با استفاده از کتابخانه Bokeh ایجاد شدند. Bokeh گزینه‌های تجسم تعاملی را فراهم می‌کند که می‌تواند به راحتی در دیگر ابزارهای وب پایتون مانند Flask نمایش داده شود، و این یک گزینه عالی برای به اشتراک گذاری تجسم‌ها به مخاطبان گسترده است.

۱۱. کتابخانه Seaborn

بهترین ویژگی‌ها برای Seaborn (حداقل در مورد علم داده) نمودارهای همبستگی هستند که تشخیص همبستگی بصری در تمام ابعاد مجموعه داده شما را فوق‌العاده آسان می‌کنند. سی‌بورن بر روی MatPlotLib ساخته شده است، بنابراین به راحتی در دسترس است و یک ابزار عالی برای تجسم سریع داده‌های شما است.

۱۲. کتابخانه Plotly

کتابخانه Plotly یک ابزار عالی دیگر برای ایجاد تجسم‌های تعاملی پیشرفته است که برای انجام تجزیه و تحلیل اکتشافی و برای نمایش نتایج عالی هستند. واقعا هیچ چیزی وجود ندارد که Plotly نتواند آن را انجام دهد، اما انواع خاصی از تجسم‌ها در این کتابخانه به جای گزینه‌های دیگر کمی کاربر پسند هستند. در نهایت وقتی صحبت از انتخاب بهترین کتابخانه تجسم برای پروژه شما می‌شود، مسئله سلیقه و آشنایی مطرح می‌شود.

این لیست به هیچ وجه جامع نیست، اما این مکان خوبی برای شروع هر کسی در سفر علم داده خود است. کتابخانه‌های پایتون مورد علاقه شما برای دانش داده چیست؟

این متن با استفاده از ربات ترجمه مقالات علوم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.