با داشتن این مهارت‌های علوم داده، در هر شرکتی استخدام شوید.

منتشرشده در towardsdatascience به تاریخ 20 ژانویه 2021
لینک منبع: The Top 5 Data Science Qualifications

مقدمه

به‌عنوان کسی که با چندین شرکت برای کسب اطلاعات علمی مصاحبه کرده است، و همچنین به‌عنوان کسی که صلاحیت‌های موردنیاز بی‌شماری را برای مصاحبه جستجو و کاوش کرده است، من پنج مهارت برتر خود در زمینه علوم داده را گردآوری کرده‌ام. انتظار می‌رود که این صلاحیت‌ها نه‌تنها در زمان مصاحبه موردنیاز باشند، بلکه صلاحیت‌های مهمی برای به خاطر سپردن در زمان کار فعلی‌تان هستند، حتی اگر قصد مصاحبه کردن نداشته باشید.

علم داده همیشه در حال تحول است بنابراین آگاهی از تکنولوژی‌های جدید در این زمینه بسیار مهم است. این الزامات ممکن است با تجربیات شخصی شما متفاوت باشند، بنابراین به یاد داشته باشید که این مقاله ریشه در نظر من به‌عنوان یک محقق داده حرفه‌ای دارد. این صلاحیت‌ها به‌عنوان مهارت‌های کلیدی، مفاهیم و تجربیات مختلفی که انتظار می‌رود قبل از ورود به نقش جدید یا نقش فعلی داشته باشند، توصیف خواهند شد. اگر می‌خواهید در مورد پنج مهارت برتر علوم داده برای مصاحبه و یا برای شغل فعلی خود به‌عنوان یک محقق داده بیشتر بدانید، به خواندن ادامه دهید.

برنامه‌نویسی

به‌عنوان یک محقق داده، وقتی برای اولین بار مطالعه می‌کنید، ممکن است تعجب کنید که متوجه شوید کدنویسی و برنامه‌نویسی اغلب در برنامه درسی نادیده گرفته می‌شوند، زیرا کلاس‌هایی که ممکن است در آن‌ها ثبت‌نام کنید، در حال حاضر انتظار دارند که شما کدنویسی را بدانید. بااین‌حال، بسیار مهم است که نوعی مهارت در زبان برنامه‌نویسی داشته باشید. شما ابتدا می‌توانید ریاضیات پیشرفته، آمار، الگوریتم‌های یادگیری ماشینی، نظریه عمومی و فرآیندهای علم داده را قبل از یادگیری کدنویسی یاد بگیرید. اگر این شرایط موردنظر شما است، بدانید کهزمان بهتری برای یادگیری نسبت به حالا وجود ندارد.

در تجربه برنامه‌نویسی من، ابتدا SAS را یاد گرفتم، سپس به یادگیری R پرداختم، و سرانجام به سراغ پایتون رفتم. من فکر می‌کنم این روند، یک روش خوب برای یادگیری برنامه‌نویسی به سهولت و به‌آرامی است. بااین‌حال، اگر برای یادگیری همه چیز درباره علوم داده عجله دارید، بهتر است بلافاصله به سراغ برنامه‌نویسی شی‌گرا بروید.

اما، در مورد من، من عمدتاً روی آمار تمرکز کردم و SAS سکوی خوبی برای تبدیل نظریه به عمل از همان ابتدا بود.

زبان SAS

SAS مخفف سیستم تجزیه‌وتحلیل آماری (Statistical Analysis System) است. در این زبان برنامه‌نویسی، شما می‌توانید بیشتر رویکردهای آماری علم داده را به نحوی انجام دهید. وظایف اصلی انجام دستکاری داده‌ها، آمار توصیفی، و گزارش‌دهی است. در اینجا جنبه‌های اصلی محصول SAS که آن را برجسته می‌کنند وجود دارند:

  • برنامه‌نویسی شهودی و انعطاف‌پذیر
  • کتابخانه‌های دارای رویه‌های مشترک
  • مدیریت و نظارت خودکار
  • ابزار تجزیه‌وتحلیل داده‌ها
  • پشتیبانی کراس-پلتفرم و چند-پلتفرم

مزایایی که من در SAS تجربه کرده‌ام مقدار قدرت آماری و روش‌های عملی است که لزوماً به‌اندازه زبان‌های دیگر مانند R یا پایتون رایج و قوی نیستند. واردکردن عبارات شامل، اما نه محدود به، PROC GLM هستند، که شامل رگرسیون، رگرسیون چندگانه، ANOVA (تجزیه‌وتحلیل واریانس)، همبستگی جزئی، و MONOVA (تجزیه‌وتحلیل واریانس چند متغیره) است.
علاوه بر این تحلیل‌های مختلف، شما می‌توانید داده‌های خود را با نمودار نیز تصویرسازی و توصیف کنید. برخی از آن‌هایی که بیش از همه از آن‌ها استفاده کرده‌ام عبارتند از:

  • RStudent
  • Quantile
  • Cook’s D

به‌طورکلی، این اولین زبان برنامه‌نویسی برای یادگیری به‌عنوان یک محقق داده است زیرا به‌عنوان یک انتقال مناسب از نظریه به کاربرد عملی به‌ویژه با اهمیت آماری، عمل می‌کند.

زبان R

زبان بعدی، R، یک گام بالاتر از SAS است در حقیقت شما می‌توانید از برنامه‌نویسی با محوریت یادگیری ماشینی نیز استفاده کنید. با این زبان برنامه‌نویسی و اضافه کردن «RStudio» می‌توانید راه‌حل‌های آماری ارزشمند و طرح‌های توصیفی ایجاد کنید. فرآیند استفاده از کد R با برنامه‌های کاربردی علم داده معمولاً با واردکردن مجموعه داده‌های شما، واردکردن کتابخانه‌های شما، بررسی داده‌ها با و بدون نمودار، و در نهایت، ساخت مدل‌ها آغاز می‌شود. برخی از الگوریتم‌های یادگیری ماشینی که من با برنامه‌نویسی R استفاده کرده‌ام شامل LDA، KNN و جنگل تصادفی می‌شوند. چیزهای خیلی بیشتری وجود دارد، اما شبیه به پایتون و sklearn است، که در زیر در مورد آن‌ها بحث خواهم کرد.

من همیشه دوست دارم R را به‌عنوان تعادل SAS و پایتون در نظر بگیرم. در نهایت، یادگیری این مهارت، بستگی به شما و شرکتی دارد که برای آن درخواست می‌دهید. برخی شرکت‌ها از آن استفاده می‌کنند، و برخی استفاده نمی‌کنند. اگر آن را دوست دارید، پس باید شرکتی را پیدا کنید که به R نیاز دارد، به‌خصوص از آنجا که تغییر از R به پایتون گاهی اوقات می‌تواند باعث سردرگمی و در نتیجه کند شدن بهره‌وری شود.

در اینجا به برخی از دلایلی که من R را دوست دارم اشاره می‌کنیم:

  • قدرت آماری
  • مصورسازی
  • مستندسازی

پایتون

من استفاده از پایتون را بر R ترجیح می‌دهم، عمدتاً به این دلیل که ادغام با زیرساخت فعلی و پایگاه کد یک شرکت آسان‌تر است.
من شرکت‌های زیادی را ندیدم که ترجیح دهند از R استفاده کنند تا پایتون. علاوه بر این مزایا، من احساس می‌کنم که کتابخانه‌های یادگیری ماشینی بیشتری در پایتون وجود دارند. برخی از کتابخانه‌های موردعلاقه من در پایتون عبارتند از sklearn، TensorFlow و seaborn. زمانی که من در کنار مهندسان نرم‌افزار و مهندسان داده کار می‌کنم، استفاده از پایتون نیز مفید است. من متوجه شدم که مستندات بیشتری در مورد محصولاتی وجود دارد که از پایتون برای کاربردهای علوم داده استفاده می‌کنند.

در اینجا به برخی از دلایلی که من از پایتون استفاده می‌کنم اشاره می‌کنیم:

  • توانایی استفاده از کتابخانه‌های قدرتمند یادگیری ماشینی
  • تطبیق‌پذیری در استقرار و تولید
  • تمایل بیشتر در استفاده از پایتون در یک نوت‌بوک Jupyter تا استفاده از R در RStudio

در ادامه، از مهارت‌های فنی فاصله می‌گیریم و در مورد جنبه تجاری علوم داده بحث می‌کنیم.

هوش تجاری

این صلاحیت بعدی اغلب با گواهی‌نامه و تجربیات آموزشی عمومی نادیده گرفته می‌شود. هوشمندی کسب‌وکار و هوش تجاری به معنای درک خوب کسب‌وکار و دانستن این است که چرا شما در وهله اول به علوم داده نیاز دارید.

شروع به استفاده از الگوریتم‌های پیشرفته یادگیری ماشینی بلافاصله برای داده‌های شرکت می‌تواند آسان باشد، اما مورد استفاده تجاری باید ایجاد و به‌طور کامل بررسی شود تا بیش‌ترین بازگشت سرمایه فراهم شود.

برای مثال، اگر شما قادر به طبقه‌بندی پرندگان با برخی از الگوریتم‌های بینایی کامپیوتری هستید، باید درک کنید که چرا طبقه‌بندی آن‌ها مفید است. آیا به این دلیل است که کارایی بیشتری خواهد داشت؟ آیا به این دلیل است که طبقه‌بندی دستی انسانی نادرست است؟ علاوه بر درک مشکل تجاری، شما معمولاً باید با یک مدیر محصول کار کنید تا مشخص کنید که پروژه علوم داده شما چه مقدار پول و زمان را برای شرکت شما صرفه‌جویی خواهد کرد. زمانی که شما درکی از نیازهای کسب‌وکار داشته باشید، و به پیدا کردن سریع‌تر نیازهای کسب‌وکار عادت کنید، در جنبه کسب‌وکار علوم داده صلاحیت پیدا خواهید کرد. ممکن است لازم باشد اثبات کنید که چرا الگوریتمی که انتخاب کرده‌اید در حل این مشکل مفید است. زمانی که وارد سیستم شدید، می‌توانید بر روی فرآیند فعلی کار کرده و آن را بهبود بخشید و نتایج الگوریتمی خود را نشان دهید.

در اینجا چند روش وجود دارد که می‌توانید اطمینان حاصل کنید از مهارت و هوش تجاری لازم برخوردار هستید:

  • یادگیری محصولات، مشکلات مشترک، و راه‌حل‌های محبوب محصول
  • تمرین یا مطالعه مدیریت محصول
  • داشتن دانش زیاد در تجزیه‌وتحلیل داده‌ها
  • درک معیارهای کلیدی برای هر کسب‌وکار (به‌عنوان‌مثال، کلیک به ازای هر کاربر، و غیره)

به‌طورکلی، استخدام و مطالعه تجزیه‌وتحلیل کسب‌وکار در ارتباط با علوم داده، یک صلاحیت فوق‌العاده مهم برای داشتن در رزومه و شغل فعلی شماست.

آمار و ریاضیات

درحالی‌که این صلاحیت ممکن است واضح به نظر برسد، گاهی اوقات شما می‌توانید بیشتر بر روی کتابخانه‌هایی تمرکز کنید که بسیاری از مسائل آمار و ریاضیات را برای شما انجام می‌دهند. با فرض اینکه شما در حال حاضر در استفاده از کتابخانه‌ها یا بسته‌های یادگیری ماشینی مهارت دارید، و اگر حداقل یک درک کلی از محاسبات آماری داشته باشید، در این صورت به‌خوبی واجد شرایط خواهید بود. ریاضیات و آمارهای خاص می‌توانند به‌خصوص برای دانستن این‌که چه زمانی شما آزمایش‌هایی انجام می‌دهید که دارای اهمیت هستند، بسیار مفید باشند.

برخی از آمارهای مهم علوم داده که می‌توانند به شما در واجد شرایط بودن کمک کنند عبارتند از:

  • آزمون هیپوتیزیز
  • توزیع احتمالات
  • تفکر بیزی
  • نمونه‌برداری بیش‌ازحد (و کم‌تر از حد)

من توصیه می‌کنم که از حساب گیت‌هاب خود برای نشان دادن استعداد خود در آمار و ریاضیات با نوشتن توابع خود و بحث در مورد اهمیت آزمون‌ها استفاده کنید.

یادگیری ماشینی

این ویژگی بیشتر یادآور این نکته است که هرساله یک الگوریتم یادگیری ماشینی جدید و بهتر وجود دارد که باید مطالعه و تمرین کنید. برای مثال، بسیاری از دانشمندان داده از الگوریتم یادگیری ماشینی جنگل تصادفی استفاده می‌کردند، و بعد متوجه شدند که تمام رقبای علوم داده به‌جای آن از XGBoost استفاده می‌کنند. بنابراین، به‌روز ماندن در جامعه علوم داده مفید است. تضمینی نیست که این دانش را به شما بدهند بنابراین مهم است که خودتان به دنبال آن باشید.

یک سایت به‌خصوص برجسته برای این دانش به‌روز شده، Kaggle است. این سایت به‌عنوان یک جامعه علوم داده عمل می‌کند که در آن شما می‌توانید همکاری کنید، کد خود را به اشتراک بگذارید، یاد بگیرید و سوالاتی در مورد علوم داده بپرسید.

محصولات اصلی آن‌ها عبارتند از:

  • مسابقات
  • مجموعه داده‌ها
  • نوت‌بوک‌ها
  • یادگیری

به‌طورکلی، الگوریتم‌های اصلی یادگیری ماشینی، به‌ویژه با استفاده از یک مثال موردی برای هرکدام، را تمرین کنید و الگوریتم‌های جدیدی را کشف کنید که ممکن است حتی از الگوریتم‌های قبلی قدرتمندتر باشند.

راه‌اندازی یک حساب گیت‌هاب با کد، نوت‌بوک، و مثال‌های شما راهی عالی برای تحقق این مهارت یادگیری ماشینی است.

تصویرسازی

در نهایت، مهارت تصویرسازی است. به‌عنوان یک محقق داده، مهم است که بدانید چگونه کدنویسی کنید، از الگوریتم‌های یادگیری ماشینی استفاده کنید و یک درک عالی از کسب‌وکار داشته باشید. بنابراین یکی از راه‌هایی که می‌توانید تمام این جنبه‌ها را به هم گره بزنید، تجسم یا همان تصویرسازی است.

در اینجا برخی از ابزارهای تصویرسازی محبوب و مفید آورده شده است:

  • Tableau
  • Google Data Studio
  • Looker
  • MatPlotLib
  • Seaborn
  • Pandas Profiling
  • کتابخانه‌های جدید پایتون که شامل تصویرسازی‌های ذخیره‌شده هستند

برخی از روش‌هایی که می‌توانید فرآیند علوم داده را تصویرسازی کنید، تحلیل داده اکتشافی، مشکلات تجاری و داده‌های مربوط به آن، معیارهای خطا یا دقت، و چگونگی پیشرفت نتایج مدل علوم داده در کسب‌وکار هستند.

خلاصه

علم داده به چیزهای زیادی نیاز دارد و مصاحبه‌ها می‌توانند دلهره‌آور باشند؛ خوب بودن یک راه برای آرام کردن خودتان و ایجاد اعتمادبه‌نفس بیشتر در خودتان است. مهارت‌های برتر علوم داده که من به آن‌ها باور دارم، شامل موارد زیر است:

  1. برنامه‌نویسی
  2. درک و هوش تجاری
  3. آمار و ریاضیات
  4. یادگیری ماشینی
  5. تصویرسازی

اگر شما مهارت‌های فوق را تمرین کرده باشید، در این صورت شما یک محقق داده با صلاحیت خواهید بود. داشتن نمونه‌هایی از برنامه‌نویسی، یک مورداستفاده تجاری، درک درست از آمار و ریاضیات، چند مثال از الگوریتم‌های یادگیری ماشینی، و یک حس کلی از تجسم فرآیند و نتایج، به شما این امکان را می‌دهد که یک موقعیت شغلی را به دست آورید، و یا شما را به یک محقق داده بهتر تبدیل می‌کند.

این متن با استفاده از ربات مترجم مقاله دیتاساینس ترجمه‌شده و به‌صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.

مقالات لینک‌شده در این متن می‌توانند به‌صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.