من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
۱۲ کتابخانه برتر پایتون برای علم داده در سال ۲۰۲۱
منتشرشده در: towardsdatascience به تاریخ ۱۷ آوریل ۲۰۲۱
لینک منبع: Top 12 Python Libraries For Data Science In 2021
چه شما مبتدی باشید و چه یک سرباز قدیمی که به دنبال حفظ روند کار است، این ۱۲کتابخانه پایتون ابزارهایی هستند که شما قطعا در جعبهابزار دانش داده خود برای سال ۲۰۲۱ به آنها نیاز دارید. به یاد داشته باشید که این لیست جامع نیست، بنابراین لطفا کتابخانههای مورد علاقه خود را در قسمت نظرات در زیر بنویسید اگر آنها در لیست زیر نیستند!
مطالعه مقاله برگه تقلب پایتون برای دانشمندان داده (۲۰۲۱) توصیه میشود.
دادهکاوی
نکته: هنگام اسکراپ کردن دادهها از وب، لطفا پیش از اسکراپ، عبارات و دستورالعملهای منابع دادهای خود را بررسی کنید. پیروی از تمام قوانین پروانهدهی و حق کپی که منبع داده ممکن است داشته باشد، مهم است.
۱. کتابخانه Scrapy
اسکراپی یکی از محبوبترین ابزارها برای توسعهدهندگان پایتون است که به دنبال جمعآوری داده ساختار یافته از وب هستند. اسکراپی برای ساخت کاوشگرهای وب عالی است که میتوانند دادههای ساختاری را از صفحات وب هر شکلی جمعآوری کنند، و این یک ابزار عالی برای جمعآوری دادهها است.
۲. کتابخانه BeautifulSoup
یک کتابخانه بزرگ دیگر برای جمعآوری و سازماندهی دادههای وب، BeautifulSoup اسکراپ وبسایتها را آسان میکند. BeautifulSoup برای صفحات وب که از شخصیتهای خاص استفاده میکنند عالی است چون شما میتوانید به راحتی فرمتهای مختلف رمزگذاری را به وظایف خود در هنگام جمعآوری دادههای وب منتقل کنید.
۳. کتابخانه Requests
من را از مد افتاده بنامید، اما در زمینه جمعآوری دادههای مبتنی بر وب، به خصوص از API ها، چیزی شبیه به کتابخانه Requests وجود ندارد. Requests تعامل با API ها و دیگر منابع HTML را در راهحلهای ساده و یک خطی آسان میکند.
پردازش دادهها
۴. کتابخانه پانداس
پانداس (Pandas) یک کتابخانه منبع باز است که یکی از پراستفادهترین کتابخانههای علم داده است، و با بیش از ۲۳۰۰ مشارکتکننده در Github repo خود، این کتابخانه به زودی از رده خارج نمیشود. Pandas پردازش داده و مشکلات را آسان میکند، داده را از هزاران منبع مختلف مانند CSV، SQL، یا Json جذب میکند، ویژگیهای دستکاریهای زیادی مانند رسیدگی به دادههای از دست رفته، محدود کردن فایلهای داده از دست رفته، و دستکاری ستونها، و حتی فراهم کردن برخی تجسمهای پایه اما بسیار مفید را به شما میدهد.
۵. کتابخانه Numpy
اگر شما به دنبال انجام هر گونه ریاضیات پیشرفته به هر یک از مجموعه دادههای خود هستید، پس باید کتابخانه اعداد را وارد کنید. به شدت در یادگیری عمیق و یادگیری ماشین استفاده میشود، این یک ضرورت مطلق برای هر الگوریتم و تجزیه و تحلیل سنگین محاسباتی است. آرایههای چند بعدی اعداد نیز مسائل پیچیده را به مراتب سادهتر از لیستهای استاندارد میسازند.
۶. کتابخانه Scipy
کتابخانه Scipy از Numpy گرفته شده است و همچنین میتواند تعداد زیادی محاسبات پیچیده ریاضی را انجام دهد.
اگر به دنبال پردازش تصویر چند بعدی، معادلات دیفرانسیل، یا جبر خطی باشید، این کتابخانه زندگی شما را بسیار سادهتر خواهد کرد.
ممکن است به مطالعه مقاله توسعه مبتنی بر ترانک (Trunk) چیست؟ علاقمند باشید.
یادگیری ماشینی
۷. کتابخانه Keras
حالا به اعماق قضیه میرویم. کراس به عنوان کتابخانه go-to به کتابخانهای برای یادگیری عمیق، به ویژه زمانی که به شبکههای عصبی میرسد، ظاهر شده است. این روش در بالای TensorFlow ساخته شده است، اما برای کاربرپسند بودن بیشتر ساخته شده است، و کاربران را قادر میسازد تا آزمایشهای سبک و سریع با API های یادگیری عمیق خود انجام دهند.
۸. کتابخانه TensorFlow
تنسوریفلو به دلیل استفاده از آرایههای چند بعدی که آن تنسورها را فرا میخواند، نام گذاری شده است. دلیلی وجود دارد که همه شرکتهای فنآوری بزرگ ازtensorFlow برای الگوریتمهای شبکه عصبی خود استفاده میکنند: این کتابخانه میتواند عملا هر کاری را انجام دهد. موارد استفاده بزرگ شامل آنالیز احساسی، تشخیص صدا، تشخیص ویدئو، آنالیز سری زمانی، و تشخیص چهره، در میان چیزهای دیگر است. تنسوریفلو توسط گوگل توسعه داده شد، بنابراین این کتابخانه به زودی از رده خارج نخواهد شد.
۹. کتابخانه PyTorch
درحالیکه تنسوریفلو از گرافهای استاتیک استفاده میکند، پایتورچ میتواند گرافها را در مسیر تعریف و دستکاری کند، که آن را کمی انعطافپذیرتر میکند. با وجود رویکرد فیثونی بیشتر پایتورچ نسبت به تنسوریفلو، مورد دوم به سادگی محبوبتر است، بنابراین پیدا کردن منابع بر روی آن آسانتر است. اگر شما به دنبال چیزی انعطافپذیر و کمی راحتتر از tensorFlow هستید، این کتابخانه (که توسط فیسبوک ایجاد شده است) یک منبع عالی است.
شاید مطالعه مقاله ۳ نکته اساسی در یادگیری علوم داده برای شما مفید باشد.
تجسم
۱۰. کتابخانه Bokeh
برخی از شگفتانگیزترین تجسمهای ایجاد شده توسط کد پایتون با استفاده از کتابخانه Bokeh ایجاد شدند. Bokeh گزینههای تجسم تعاملی را فراهم میکند که میتواند به راحتی در دیگر ابزارهای وب پایتون مانند Flask نمایش داده شود، و این یک گزینه عالی برای به اشتراک گذاری تجسمها به مخاطبان گسترده است.
۱۱. کتابخانه Seaborn
بهترین ویژگیها برای Seaborn (حداقل در مورد علم داده) نمودارهای همبستگی هستند که تشخیص همبستگی بصری در تمام ابعاد مجموعه داده شما را فوقالعاده آسان میکنند. سیبورن بر روی MatPlotLib ساخته شده است، بنابراین به راحتی در دسترس است و یک ابزار عالی برای تجسم سریع دادههای شما است.
۱۲. کتابخانه Plotly
کتابخانه Plotly یک ابزار عالی دیگر برای ایجاد تجسمهای تعاملی پیشرفته است که برای انجام تجزیه و تحلیل اکتشافی و برای نمایش نتایج عالی هستند. واقعا هیچ چیزی وجود ندارد که Plotly نتواند آن را انجام دهد، اما انواع خاصی از تجسمها در این کتابخانه به جای گزینههای دیگر کمی کاربر پسند هستند. در نهایت وقتی صحبت از انتخاب بهترین کتابخانه تجسم برای پروژه شما میشود، مسئله سلیقه و آشنایی مطرح میشود.
این لیست به هیچ وجه جامع نیست، اما این مکان خوبی برای شروع هر کسی در سفر علم داده خود است. کتابخانههای پایتون مورد علاقه شما برای دانش داده چیست؟
این متن با استفاده از ربات ترجمه مقالات علوم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
هواپیمایی در آینده که با استفاده از ابررایانههای پیشرفته در ناسا طراحی شدهاست
مطلبی دیگر از این انتشارات
مایکروسافت آماده میشود تا Surface Pro 8 که سالها منتظر آن بودم را راهاندازی کند.
مطلبی دیگر از این انتشارات
الگوی مارپیچی سرنخهای جدیدی در مورد چگونگی شکلگیری ستارگان با جرم بالا ارائه میدهد