زبان های برنامه نویسی در علم داده

زبان­های برنامه نویسی در علم داده

تحلیل داده قسمت اصلی شغل بسیاری از مردم است. افزایش دسترسی به داده، نیاز به محاسبات پرقدرت و تاکید بر تصمیم تحلیل- محور در تجارت جدید­، سبب رشد علم داده شده‌اند. بنا بر گزارش منتشر شده از IBMدر سال 2015، تعداد شغل­های متقاضی برای تحلیل داده در دنیا دو میلیون و ۳۵ هزار نفر بوده است. تخمین زده میشود که این تعداد تا سال ۲۰۲۰ به عدد 2 میلیون و ۷۲ هزار نفر خواهد رسید.

پایتون و R، دو زبان بسیار معروف برنامه نویسی در علم داده هستند. هر دو زبان، متن باز و رایگان بوده و انتخاب بین این دو، بسیار کار سختی است. هدف از طراحی زبان R، تحلیل آماری و هدف از طراحی زبان Python، برنامه نویسی چند منظوره است اما یادگیری هر دو زبان برای کسانی که در زمینه­ی یادگیری ماشین، کار با مجموعه داده­ها یا به ایجاد نمودار­های پیچیده از داده­ها علاقه مندند، ضروری است. در این مقاله قصد داریم قابلیت‌های این دو زیان را در حوزه علم داده مقایسه کنیم.

پایتون (Python)

پایتون در سال 1989 با فسلفه­­ی کاهش حجم کد، افزایش خوانایی و کارآمدی منتشر شد. دارای خاصیت شی‌گرایی بوده و کمک می‌کند تا داده­هایمان را به صورت منظم دسته‌بندی و بین کدها ارتباط برقرار کنیم. تا چند سال اخیر پایتون کتابخانه‌های مناسبی برای یادگیری ماشین و تحلیل داده نداشت. اخیراً کتابخانه­­هایNumpy, Pandas, Scipy Scikit-learn, Seaborn برای تحلیل داده به پایتون اضافه شدند. خوانایی و راحتی در کد نویسی پایتون کار را برای علاقه­مندان در این حوزه راحت کرده‌است و اگر شما نیاز به نمایش نتایج بر روی اپلیکیشن یا وب‌سایت خود هستید، زبان چند منظوره پایتون انتخاب درستی برای شما خواهد بود.

آر (R)

زبان R در سال 1992 منتشر شد و در آن زمان محبوب­ترین زبان برای دانشمندان داده بود. R یکی از زبان­های قدرتمند و دارای اکوسیستم­های غنی­ای برای تحلیل داده است. در حدود 12000 پکیج در منبع CRANدارد که سبب می­شود به راحتی هر کتابخانه­ای برای تحلیل داده­های خود در اختیار داشته باشید. ویژگی غنی بودن این زبان باعث شده تعداد زیادی از دانشمندان علوم داده، R را به عنوان زبان اول استفاده کنند.

تفاوت اصلی این زبان با زبان­های دیگر در خروجی محصول میباشد. R ابزار­های قوی برای نشان دادن خروجی برنامه دارد. نرم افزار RStudioکه محیط اصلی برای نوشتن کد این زبان است، با کمک کتابخانه knitrساخته شده که خود این کتابخانه توسط Xie Yihui پیاده‌سازی شده­ است.

از طرف دیگر، سرعت کم، کمبود امکانات مانند تست کردن (unit testing) و فریم ورک­­های وب از دلایل اصلی کم شدن محبوبیت ابن زبان می‌شود.

عملکرد دیتاساینس

حال بیاید در 4 شاخه این دو زبان را با هم مقایسه کنیم.

1. جمع آوری داده

2. اکتشاف در داده

3. مدل ­سازی داده

4. تجسم­ داده

جمع آوری داده

پایتون و R میتوانند از انواع فرمت­های داده­ای مانند Excel, CSV, JSON, SQL پشتیبانی کنند. می‌دانیم امروزه سریع‌ترین راه برای دریافت اطلاعات اینترنت است و پایتون و R به راحتی با کتابخانه­های خود می توانند در یک خط کد درخواست­ HTTPانجام دهد و از اینترنت داده­ها را بگیرند. همچنین این دو زبان می­توانند با نرم­افزار­هایSPSS, Stata, SAS, JMP ارتباط برقرار کنند اما نرم­افزار Minitab توانایی ارتباط با زبان Rرا دارد.

اکتشاف در داده

در پایتون برای استخراج داده­ها باید از کتابخانه Pandas استفاده کنید. این کتابخانه قادر است تعداد زیادی از داده­ها را استخراج و در دیتافریم­های خود ذخیره کند و بر روی آن­ها به سرعت اعمال فیلتر، مرتب­سازی، نمایش داده­ را اجرا کند. با دیتافریم Pandasمی‌توانید توابع گسترده­ای در اختیار داشته باشید، تنها کافی است که به داکیومنت کتابخانه مراجعه کنید و نحوه کار با تمام توابع­ را ببینید.

زبان R ساخته شده‌است تا محاسبات آماری و عددی در داده­های بزرگ انجام دهد. در نتیجه عجیب نیست که توابع زیادی در اکتشاف داده داشته باشد. همینطور شما قادر خواهید بود از توزیع­های احتمالی، آزمایش‌های آماری و تکنیک­های یادگیری ماشین و داده­‌کاوی بهره ببرید. از کابرد­های دیگر در زبان R می‌توان به پردازش سیگنال، بهینه سازی، تولید اعداد تصادفی و یادگیری ماشین اشاره کرد.

مدل­سازی داده

در پایتون می‌توانید برای محاسبات و تحلیل عددی از Numpy، برای محاسبات مهندسی و ریاضیات از SciPy و برای دسترسی به الگوریتم­های یادگیری ماشین از scikit-learn استفاده کنید.

در R به منظور طراحی مدل­های تحلیلی می‌توان از پکیج­های خارج از هسته­ی Rاستفاده کنید و همینطور پکیج­های زیادی برای تحلیل­های خاص منظوره مانند توزیع پواسون و ترکیبی از قوانین احتمالات وجود دارد.

تجسم­ داده

در پایتون محیط قوی و دارای قابلیت­های زیاد برای تجسم­ داده­ها وجود دارد مانند نوت بوک Jupyter که محیط متن باز Anacondaاست. برای ایجاد چارت­ و گراف­های ساده از داده­های خود می‌توانید از کتابخانه­ی Matplotlib و همچنین برای ایجاد گراف­های پیشرفته­تر از کتابخانه­ی Plot.ly بهره ببرید.

زبان R به منظور تحلیل آماری و نمایش نتایج ساخته شده و دارای محیط قدرتمند و مناسب برای تجسم­سازی علمی با پکیج­هایی که برای نمایش گرافیکی نتایج می‌باشد. همچنین شما قادر خواهید بود نتایج را به صورت تصویر (jpg.) یا PDF ذخیره کنید.

سوالاتی که قبل از انتخاب زبان باید از خودتان بپرسید...

آیا تجربه­ی برنامه نویسی دارید؟

اگر شما از قبل تجربه برنامه نویسی با زبان­های دیگر را دارید، زبان پایتون مناسب شما است. کدهای پایتون شباهت بسیاری با زبان های دیگر دارد. خوانایی زبان پایتون به شما کمک میکند تا در پیشرفت دقت کدهایتان زمان کمتری بگذارید در صورتی که نامفهومی زبان R سبب می‌شود که در مرحله پیشرفت کد به دشواری برسید.

آکادمیک یا صنعت؟

یادگیری ماشین، یکی از زیرشاخه­های هوش مصنوعی است در حالی که یادگیری آماری، که از اسمش پیداست، از زیرشاخه‌های آماری است. یادگیری ماشین تاکید بیشتری بر برنامه­های گسترده و دقت احتمالات دارد ولی یادگیری آماری تاکید بر روی تفسیر مدل­ها، دقت، عدم قطعیت، خروجی­های نموداری و ترسیمی­ دارد.

گرافیک خوب برای نمایش دیتا؟

برای نمونه برداری و کار با دیتاست­ها برای ساخت مدل یادگیری ماشین، R از پایتون بهتر عمل می‌کند. پایتون از کتابخانه Matplotlib اما زبان R از کتابخانه­های ggplot2, htmlwidgets, Leaflet استفاده می‌کند که در حوزه تجسم داده (Data visualization) نتایج بهتر داشته است.

نتیجه

زبان پایتون، زبان قدرتمند و همه کاره بوده اما بدون کتابخانه­هایش عملاً کمکی به ما نمی‌تواند بکند. از طرفی، زبان R یک محیط مخصوص برای تحلیل داده است که از طرف دانشمندان علوم داده، محبوبیت زیادی دارد. اگر بخواهید یک روزی در حوزه علم داده فعالیت کنید، به این زبان نیاز خواهید داشت.

یک واقعیتی که در اینجا مطرح میشود این است که هر دو زبان­ها دارای ابزار­های قدرتمندی هستند. در زمینه علم داده­ همه‌کاره بودن، انعطاف پذیری و آسانی در پیشرفت یک زبان دارای اهمیت زیادی است. برای کار کردن در این حوزه باید جفت این زبان­ها را یاد بگیرید و از هر دو استفاده کنید تا بتوانید یک دانشمند علم داده­ی بهتری باشید!

منابع

https://medium.com/@data_driven/python-vs-r-for-data-science-and-the-winner-is-3ebb1a968197

https://www.guru99.com/r-vs-python.html