من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
با داشتن این مهارتهای علوم داده، در هر شرکتی استخدام شوید.
منتشرشده در towardsdatascience به تاریخ 20 ژانویه 2021
لینک منبع: The Top 5 Data Science Qualifications
مقدمه
بهعنوان کسی که با چندین شرکت برای کسب اطلاعات علمی مصاحبه کرده است، و همچنین بهعنوان کسی که صلاحیتهای موردنیاز بیشماری را برای مصاحبه جستجو و کاوش کرده است، من پنج مهارت برتر خود در زمینه علوم داده را گردآوری کردهام. انتظار میرود که این صلاحیتها نهتنها در زمان مصاحبه موردنیاز باشند، بلکه صلاحیتهای مهمی برای به خاطر سپردن در زمان کار فعلیتان هستند، حتی اگر قصد مصاحبه کردن نداشته باشید.
علم داده همیشه در حال تحول است بنابراین آگاهی از تکنولوژیهای جدید در این زمینه بسیار مهم است. این الزامات ممکن است با تجربیات شخصی شما متفاوت باشند، بنابراین به یاد داشته باشید که این مقاله ریشه در نظر من بهعنوان یک محقق داده حرفهای دارد. این صلاحیتها بهعنوان مهارتهای کلیدی، مفاهیم و تجربیات مختلفی که انتظار میرود قبل از ورود به نقش جدید یا نقش فعلی داشته باشند، توصیف خواهند شد. اگر میخواهید در مورد پنج مهارت برتر علوم داده برای مصاحبه و یا برای شغل فعلی خود بهعنوان یک محقق داده بیشتر بدانید، به خواندن ادامه دهید.
برنامهنویسی
بهعنوان یک محقق داده، وقتی برای اولین بار مطالعه میکنید، ممکن است تعجب کنید که متوجه شوید کدنویسی و برنامهنویسی اغلب در برنامه درسی نادیده گرفته میشوند، زیرا کلاسهایی که ممکن است در آنها ثبتنام کنید، در حال حاضر انتظار دارند که شما کدنویسی را بدانید. بااینحال، بسیار مهم است که نوعی مهارت در زبان برنامهنویسی داشته باشید. شما ابتدا میتوانید ریاضیات پیشرفته، آمار، الگوریتمهای یادگیری ماشینی، نظریه عمومی و فرآیندهای علم داده را قبل از یادگیری کدنویسی یاد بگیرید. اگر این شرایط موردنظر شما است، بدانید کهزمان بهتری برای یادگیری نسبت به حالا وجود ندارد.
در تجربه برنامهنویسی من، ابتدا SAS را یاد گرفتم، سپس به یادگیری R پرداختم، و سرانجام به سراغ پایتون رفتم. من فکر میکنم این روند، یک روش خوب برای یادگیری برنامهنویسی به سهولت و بهآرامی است. بااینحال، اگر برای یادگیری همه چیز درباره علوم داده عجله دارید، بهتر است بلافاصله به سراغ برنامهنویسی شیگرا بروید.
اما، در مورد من، من عمدتاً روی آمار تمرکز کردم و SAS سکوی خوبی برای تبدیل نظریه به عمل از همان ابتدا بود.
زبان SAS
SAS مخفف سیستم تجزیهوتحلیل آماری (Statistical Analysis System) است. در این زبان برنامهنویسی، شما میتوانید بیشتر رویکردهای آماری علم داده را به نحوی انجام دهید. وظایف اصلی انجام دستکاری دادهها، آمار توصیفی، و گزارشدهی است. در اینجا جنبههای اصلی محصول SAS که آن را برجسته میکنند وجود دارند:
- برنامهنویسی شهودی و انعطافپذیر
- کتابخانههای دارای رویههای مشترک
- مدیریت و نظارت خودکار
- ابزار تجزیهوتحلیل دادهها
- پشتیبانی کراس-پلتفرم و چند-پلتفرم
مزایایی که من در SAS تجربه کردهام مقدار قدرت آماری و روشهای عملی است که لزوماً بهاندازه زبانهای دیگر مانند R یا پایتون رایج و قوی نیستند. واردکردن عبارات شامل، اما نه محدود به، PROC GLM هستند، که شامل رگرسیون، رگرسیون چندگانه، ANOVA (تجزیهوتحلیل واریانس)، همبستگی جزئی، و MONOVA (تجزیهوتحلیل واریانس چند متغیره) است.
علاوه بر این تحلیلهای مختلف، شما میتوانید دادههای خود را با نمودار نیز تصویرسازی و توصیف کنید. برخی از آنهایی که بیش از همه از آنها استفاده کردهام عبارتند از:
- RStudent
- Quantile
- Cook’s D
بهطورکلی، این اولین زبان برنامهنویسی برای یادگیری بهعنوان یک محقق داده است زیرا بهعنوان یک انتقال مناسب از نظریه به کاربرد عملی بهویژه با اهمیت آماری، عمل میکند.
زبان R
زبان بعدی، R، یک گام بالاتر از SAS است در حقیقت شما میتوانید از برنامهنویسی با محوریت یادگیری ماشینی نیز استفاده کنید. با این زبان برنامهنویسی و اضافه کردن «RStudio» میتوانید راهحلهای آماری ارزشمند و طرحهای توصیفی ایجاد کنید. فرآیند استفاده از کد R با برنامههای کاربردی علم داده معمولاً با واردکردن مجموعه دادههای شما، واردکردن کتابخانههای شما، بررسی دادهها با و بدون نمودار، و در نهایت، ساخت مدلها آغاز میشود. برخی از الگوریتمهای یادگیری ماشینی که من با برنامهنویسی R استفاده کردهام شامل LDA، KNN و جنگل تصادفی میشوند. چیزهای خیلی بیشتری وجود دارد، اما شبیه به پایتون و sklearn است، که در زیر در مورد آنها بحث خواهم کرد.
من همیشه دوست دارم R را بهعنوان تعادل SAS و پایتون در نظر بگیرم. در نهایت، یادگیری این مهارت، بستگی به شما و شرکتی دارد که برای آن درخواست میدهید. برخی شرکتها از آن استفاده میکنند، و برخی استفاده نمیکنند. اگر آن را دوست دارید، پس باید شرکتی را پیدا کنید که به R نیاز دارد، بهخصوص از آنجا که تغییر از R به پایتون گاهی اوقات میتواند باعث سردرگمی و در نتیجه کند شدن بهرهوری شود.
در اینجا به برخی از دلایلی که من R را دوست دارم اشاره میکنیم:
- قدرت آماری
- مصورسازی
- مستندسازی
پایتون
من استفاده از پایتون را بر R ترجیح میدهم، عمدتاً به این دلیل که ادغام با زیرساخت فعلی و پایگاه کد یک شرکت آسانتر است.
من شرکتهای زیادی را ندیدم که ترجیح دهند از R استفاده کنند تا پایتون. علاوه بر این مزایا، من احساس میکنم که کتابخانههای یادگیری ماشینی بیشتری در پایتون وجود دارند. برخی از کتابخانههای موردعلاقه من در پایتون عبارتند از sklearn، TensorFlow و seaborn. زمانی که من در کنار مهندسان نرمافزار و مهندسان داده کار میکنم، استفاده از پایتون نیز مفید است. من متوجه شدم که مستندات بیشتری در مورد محصولاتی وجود دارد که از پایتون برای کاربردهای علوم داده استفاده میکنند.
در اینجا به برخی از دلایلی که من از پایتون استفاده میکنم اشاره میکنیم:
- توانایی استفاده از کتابخانههای قدرتمند یادگیری ماشینی
- تطبیقپذیری در استقرار و تولید
- تمایل بیشتر در استفاده از پایتون در یک نوتبوک Jupyter تا استفاده از R در RStudio
در ادامه، از مهارتهای فنی فاصله میگیریم و در مورد جنبه تجاری علوم داده بحث میکنیم.
هوش تجاری
این صلاحیت بعدی اغلب با گواهینامه و تجربیات آموزشی عمومی نادیده گرفته میشود. هوشمندی کسبوکار و هوش تجاری به معنای درک خوب کسبوکار و دانستن این است که چرا شما در وهله اول به علوم داده نیاز دارید.
شروع به استفاده از الگوریتمهای پیشرفته یادگیری ماشینی بلافاصله برای دادههای شرکت میتواند آسان باشد، اما مورد استفاده تجاری باید ایجاد و بهطور کامل بررسی شود تا بیشترین بازگشت سرمایه فراهم شود.
برای مثال، اگر شما قادر به طبقهبندی پرندگان با برخی از الگوریتمهای بینایی کامپیوتری هستید، باید درک کنید که چرا طبقهبندی آنها مفید است. آیا به این دلیل است که کارایی بیشتری خواهد داشت؟ آیا به این دلیل است که طبقهبندی دستی انسانی نادرست است؟ علاوه بر درک مشکل تجاری، شما معمولاً باید با یک مدیر محصول کار کنید تا مشخص کنید که پروژه علوم داده شما چه مقدار پول و زمان را برای شرکت شما صرفهجویی خواهد کرد. زمانی که شما درکی از نیازهای کسبوکار داشته باشید، و به پیدا کردن سریعتر نیازهای کسبوکار عادت کنید، در جنبه کسبوکار علوم داده صلاحیت پیدا خواهید کرد. ممکن است لازم باشد اثبات کنید که چرا الگوریتمی که انتخاب کردهاید در حل این مشکل مفید است. زمانی که وارد سیستم شدید، میتوانید بر روی فرآیند فعلی کار کرده و آن را بهبود بخشید و نتایج الگوریتمی خود را نشان دهید.
در اینجا چند روش وجود دارد که میتوانید اطمینان حاصل کنید از مهارت و هوش تجاری لازم برخوردار هستید:
- یادگیری محصولات، مشکلات مشترک، و راهحلهای محبوب محصول
- تمرین یا مطالعه مدیریت محصول
- داشتن دانش زیاد در تجزیهوتحلیل دادهها
- درک معیارهای کلیدی برای هر کسبوکار (بهعنوانمثال، کلیک به ازای هر کاربر، و غیره)
بهطورکلی، استخدام و مطالعه تجزیهوتحلیل کسبوکار در ارتباط با علوم داده، یک صلاحیت فوقالعاده مهم برای داشتن در رزومه و شغل فعلی شماست.
آمار و ریاضیات
درحالیکه این صلاحیت ممکن است واضح به نظر برسد، گاهی اوقات شما میتوانید بیشتر بر روی کتابخانههایی تمرکز کنید که بسیاری از مسائل آمار و ریاضیات را برای شما انجام میدهند. با فرض اینکه شما در حال حاضر در استفاده از کتابخانهها یا بستههای یادگیری ماشینی مهارت دارید، و اگر حداقل یک درک کلی از محاسبات آماری داشته باشید، در این صورت بهخوبی واجد شرایط خواهید بود. ریاضیات و آمارهای خاص میتوانند بهخصوص برای دانستن اینکه چه زمانی شما آزمایشهایی انجام میدهید که دارای اهمیت هستند، بسیار مفید باشند.
برخی از آمارهای مهم علوم داده که میتوانند به شما در واجد شرایط بودن کمک کنند عبارتند از:
- آزمون هیپوتیزیز
- توزیع احتمالات
- تفکر بیزی
- نمونهبرداری بیشازحد (و کمتر از حد)
من توصیه میکنم که از حساب گیتهاب خود برای نشان دادن استعداد خود در آمار و ریاضیات با نوشتن توابع خود و بحث در مورد اهمیت آزمونها استفاده کنید.
یادگیری ماشینی
این ویژگی بیشتر یادآور این نکته است که هرساله یک الگوریتم یادگیری ماشینی جدید و بهتر وجود دارد که باید مطالعه و تمرین کنید. برای مثال، بسیاری از دانشمندان داده از الگوریتم یادگیری ماشینی جنگل تصادفی استفاده میکردند، و بعد متوجه شدند که تمام رقبای علوم داده بهجای آن از XGBoost استفاده میکنند. بنابراین، بهروز ماندن در جامعه علوم داده مفید است. تضمینی نیست که این دانش را به شما بدهند بنابراین مهم است که خودتان به دنبال آن باشید.
یک سایت بهخصوص برجسته برای این دانش بهروز شده، Kaggle است. این سایت بهعنوان یک جامعه علوم داده عمل میکند که در آن شما میتوانید همکاری کنید، کد خود را به اشتراک بگذارید، یاد بگیرید و سوالاتی در مورد علوم داده بپرسید.
محصولات اصلی آنها عبارتند از:
- مسابقات
- مجموعه دادهها
- نوتبوکها
- یادگیری
بهطورکلی، الگوریتمهای اصلی یادگیری ماشینی، بهویژه با استفاده از یک مثال موردی برای هرکدام، را تمرین کنید و الگوریتمهای جدیدی را کشف کنید که ممکن است حتی از الگوریتمهای قبلی قدرتمندتر باشند.
راهاندازی یک حساب گیتهاب با کد، نوتبوک، و مثالهای شما راهی عالی برای تحقق این مهارت یادگیری ماشینی است.
تصویرسازی
در نهایت، مهارت تصویرسازی است. بهعنوان یک محقق داده، مهم است که بدانید چگونه کدنویسی کنید، از الگوریتمهای یادگیری ماشینی استفاده کنید و یک درک عالی از کسبوکار داشته باشید. بنابراین یکی از راههایی که میتوانید تمام این جنبهها را به هم گره بزنید، تجسم یا همان تصویرسازی است.
در اینجا برخی از ابزارهای تصویرسازی محبوب و مفید آورده شده است:
- Tableau
- Google Data Studio
- Looker
- MatPlotLib
- Seaborn
- Pandas Profiling
- کتابخانههای جدید پایتون که شامل تصویرسازیهای ذخیرهشده هستند
برخی از روشهایی که میتوانید فرآیند علوم داده را تصویرسازی کنید، تحلیل داده اکتشافی، مشکلات تجاری و دادههای مربوط به آن، معیارهای خطا یا دقت، و چگونگی پیشرفت نتایج مدل علوم داده در کسبوکار هستند.
خلاصه
علم داده به چیزهای زیادی نیاز دارد و مصاحبهها میتوانند دلهرهآور باشند؛ خوب بودن یک راه برای آرام کردن خودتان و ایجاد اعتمادبهنفس بیشتر در خودتان است. مهارتهای برتر علوم داده که من به آنها باور دارم، شامل موارد زیر است:
- برنامهنویسی
- درک و هوش تجاری
- آمار و ریاضیات
- یادگیری ماشینی
- تصویرسازی
اگر شما مهارتهای فوق را تمرین کرده باشید، در این صورت شما یک محقق داده با صلاحیت خواهید بود. داشتن نمونههایی از برنامهنویسی، یک مورداستفاده تجاری، درک درست از آمار و ریاضیات، چند مثال از الگوریتمهای یادگیری ماشینی، و یک حس کلی از تجسم فرآیند و نتایج، به شما این امکان را میدهد که یک موقعیت شغلی را به دست آورید، و یا شما را به یک محقق داده بهتر تبدیل میکند.
این متن با استفاده از ربات مترجم مقاله دیتاساینس ترجمهشده و بهصورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند بهصورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
زمانی که روابط از هم بپاشند، مردان در معرض بیماریهای روانی و خودکشی قرار میگیرند
مطلبی دیگر از این انتشارات
فنآوری پیشرفته در کمک به انسان با پلیس هوش مصنوعی
مطلبی دیگر از این انتشارات
چگونه از گذارها برای جالبتر کردن ویدئوهای تیکتاک خود استفاده کنید