چهارده سوال خودآزمایی که باید در نظر گرفته شود
این سوالات به شما کمک می کنند که آمادگی خود را برای چالش ها و فرصت ها قبل از ورود به حیطه علم داده ارزیابی کنید.
نوشته شده توسط: Benjamin Obi Tayo
18 نوامبر 2020
در حال حاضر دادهها به عنوان یکی از سریعترین صنایع با رشد چند میلیارد دلاری محسوب میشوند. در نتیجه شرکتها و سازمانها در تلاش هستند تا حداکثر استفاده را از دادههایی که در حال حاضر دارند ببرند و همچنین بفهمند که به چه دادههایی نیاز دارند. علاوه بر این، نیاز مبرمی به دانشمندان داده برای درک اعداد و کشف راه حلهای پنهان برای مشکلات پیچیده تجاری وجود دارد. اخیرا در مطالعهای که با استفاده از ابزار جستجوی شغل درلینکدین (LinkedIn) انجام شده است، نشان داده شده است که اکثر مشاغل برتر در حوزه فناوری در سال 2020 مشاغلی هستند که نیاز به مهارت در علم داده دارند. با اینکه راههای زیادی برای ورود به حوزه علم داده وجود دارد؛ اما خودآموزی در مورد علم داده راهی عالی برای به دست آوردن مهارت ها و تجربیات مورد نیاز برای کسب برتری در این فیلد رقابتی است. قبل از ورود به حیطه علم داده مهم است که سوالات زیر را بررسی کنید تا دریابید که آیا علم داده واقعاً برای شما مناسب است یا خیر.
علم داده یک زمینه گسترده شامل چندین زیرمجموعه است؛ مانند تهیه و اکتشاف داده، نمایش و تبدیل دادهها ، تصویرسازی و ارائه دادهها، تحلیل پیش بینی، یادگیری ماشین، یادگیری عمیق، هوش مصنوعی و غیره.
برای علم داده می توان سه سطح در نظر گرفت (سه سطح براساس مباحثی که در یکی از بهترین کتابهای درسی یادگیری ماشین وجود دارد:یادگیری ماشین پایتون نوشته شده توسط Raschka Sebastien ، نسخه سوم)، یعنی: سطح یک (سطح پایه)، سطح دو (سطح متوسط) و سطح سه (سطح پیشرفته). پیچیدگی مباحث از سطح یک به سه افزایش می یابد، همانطور که در شکل زیر نمایش داده شده است.
شکل 1 – سه سطح دانش در علم داده
یک دانشمند داده از دادهها در جهت معنا بخشیدن و روشن شدن نتیجهی یک کار استفاده میکند که در نهایت به تصمیم گیری یک موسسه یا سازمان میانجامد. شغل آنها بیشتر جمع آوری دادهها، تبدیل دادهها، مصورسازی و تحلیل دادهها، ساخت مدلهای پیشبینی کننده و ارائه اقدامات اجرایی براساس یافتههای حاصل از دادههاست.
دانشمندان داده در بخشهای مختلفی مانند مراقبت های بهداشتی، دولت، صنایع، انرژی، دانشگاه، فناوری، سرگرمی و غیره میتوانند فعالیت کنند. دانشمندان داده بسیاری در مطرحترین شرکتهای دنیا مانند آمازون، گوگل، مایکروسافت، فیس بوک، لینکدین، توییتر، NetVix ، IBM و غیره، جذب و استخدام شدهاند.
آینده شغلی دانشمندان داده بسیار روشن است. بر طبق پیشبینی IBM تقاضا برای دانشمند داده تا سال 2020 به 28% افزایش مییابد. اخیرا مطالعهای که با استفاده از لینکدین انجام گرفته است نشان داد که اکثر مشاغل برتر فناوری در سال 2020 مشاغلی هستند که نیاز به مهارت در علم داده، تحلیل تجارت، یادگیری ماشین و پردازش یا رایانش ابری دارند (شکل 2).
شکل 2 – تعداد شغلهای مرتبط با علم داده در دنیا با استفاده از ابزار جستجوی شغل در لینکدین
میزان درآمد شما به عنوان دانشمند داده به سازمان یا شرکتی که در آن کار می کنید، سوابق تحصیلی و میزان تجربه کاریتان بستگی دارد. دانشمندان داده از 50،000 تا 250،000 دلار و به طور متوسط حدود 120،000 دلار درآمد دارند. در آینده این موضوع تحت عنوان مقالهای با عنوان دانشمندان داده چقدر درآمد دارند؟، ("How Much do Data Scientists Make") به درآمد دانشمندان داده بیشتر پرداخته خواهد شد.
بیشتر برنامههای علم داده یا تحلیل تجارت به موارد زیر نیاز دارند:
الف) سطح بالایی از توانایی تحلیل
ب) طرز فکر حل مسئله
ج) مهارت برنامه نویسی
د) توانایی برقراری ارتباط موثر
ه) توانایی کار تیمی
از این رو برای آماده شدن برای یک حرفه در علم داده بهتر است در زمینههایی مانندعلوم (science)، فناوری ،مهندسی، ریاضیات، تجارت یا اقتصاد، لیسانس بگیرید.
اگر علاقه مند به یادگیری اصول علم داده هستید باید از یک جا شروع کنید. در لیستهای مضحک زبانهای برنامه نویسی در تبلیغات شغلی دانشمند داده غرق نشوید. اگرچه یادگیری هرچه بیشتر ابزار علم داده مهم است؛ اما توصیه می شود برای شروع فقط یک یا دو زبان برنامه نویسی را یاد بگیرید. پس از آنکه زمینه خوبی در علم داده پیدا کردید، می توانید زبانهای مختلف برنامه نویسی یا سیستم عاملهای مختلف را بیاموزید. طبق این مقاله، پایتون و R همچنان مهمترین زبانهای برنامه نویسی در علم داده محسوب می شوند. توصیه میکنیم که با پایتون شروع کنید؛ زیرا در دانشگاه و صنعت از آن به عنوان زبان پیش فرض برای علم داده بیشتر استفاده میشود.
اگر در یک رشته تحلیلی مانند فیزیک، ریاضیات، مهندسی، علوم کامپیوتر، اقتصاد یا آمار سابقه خوبی دارید، می توانید اصول علم داده را به خود یاد دهید. شما می توانید با گذراندن دوره های آنلاین رایگان از بستر هایی مانند edX ، Coursera یا DataCamp شروع کنید. سطح یک علم داده (شکل 1 را ببینید) در طی 6 تا 12 ماه قابل دستیابی است. سطح دو را می توان طی 7 تا 18 ماه و سطح سه را می توان طی 18 تا 48 ماه به دست آورد. مدت زمان مورد نیاز برای به دست آوردن سطح خاصی از توانایی به سابقه شما و مدت زمانی که برای یادگیری آن میگذارید بستگی دارد. به طور معمول افرادی که در یک رشته تحلیلی مانند فیزیک ، ریاضیات ، آمار ، علوم، مهندسی، حسابداری یا علوم کامپیوتر تجربه دارند در مقایسه با افراد دیگر، به زمان کمتری نیاز دارند.
پروژههای علم داده می توانند بسیار طولانی و طاقت فرسا باشند. از حل مسئله گرفته تا ساخت مدل و کاربرد آن، بسته به مقیاس مشکل، روند کار ممکن است هفتهها و حتی ماهها طول بکشد. به عنوان یک دانشمند داده فعال در این حوزه، برخورد با مشکلات راه در یک پروژه امری اجتناب ناپذیر است. صبرو استقامت از ویژگیهای اساسی و لازم برای موفق شدن در شغل علم داده است.
علم داده یک فیلد بسیار کاربردی است. به یاد داشته باشید که ممکن است در مدیریت دادهها و همچنین ساختن الگوریتمهای یادگیری ماشین بسیار ماهر باشید؛ اما به عنوان یک دانشمند داده، کار در دنیای واقعی مهم است. هر مدل پیش بین باید نتایج معنی دار و قابل تفسیری از موقعیتها در واقعیت ایجاد کند تا مفید واقع شود. نقش شما به عنوان یک دانشمند داده این است که از دادهها استفاده کنید که در نهایت بتوانید تصمیماتی مهم در جهت بهبود عملکرد شرکت و کمک به افزایش منافع شرکت
، بگیرید.
دانشمندان داده باید بتوانند ایدههای خود را با سایر اعضای تیم یا با مدیران بازرگانی در سازمانهای خود به نحو موثری به اشتراک بگذارند. مهارتهای ارتباطی خوب این امکان را به وجود میآورد تا بتوانید اطلاعات بسیار فنی را به افرادی كه مفاهیم فنی در علم داده را بسیار كم یا اصلاً درك نمی كنند منتقل کنید. مهارتهای ارتباطی خوب به تقویت فضای وحدت و اتحاد با سایر اعضای تیم مانند تحلیلگران داده، مهندسان داده، مهندسان رشته و غیره کمک می کند.
علم داده همیشه در حال پیشرفت است، بنابراین برای پذیرش و یادگیری فن آوریهای جدید بایستی آماده باشید. یکی از راههای آشنایی با تحولات علم داده ارتباط با دیگر دانشمندان داده است. برخی از پلتفرمهای موثر در این زمینه لینکدین، GitHub و medium میتواند باشد. این پلتفرمها در بهدست آوردن بروزترین اطلاعات در مورد آخرین پیشرفتهای موجود در زمینه علم داده بسیار مفید هستند.
شما به عنوان یک دانشمند داده، در تیمی متشکل از تحلیلگران، مهندسان و مدیران داده کار خواهید کرد؛ بنابراین به مهارت های ارتباطی خوبی نیاز دارید. شما باید شنونده خوبی نیز باشید، مخصوصاً در مراحل اولیه توسعه پروژه که باید به مهندسان یا سایر پرسنل اعتماد کنید تا بتوانید یک پروژه علمی خوب را طراحی کنید.
رعایت اصول اخلاقی و حریم خصوصی در علم داده ضروری و واجب است. شما نیاز دارید مفاهیم پروژه خود را درک کنید. با خود صادق باشید. از دستکاری دادهها یا استفاده از روشی که عمدا باعث ایجاد اریبی (Bias) در نتایج میشود، اجتناب کنید. در تمامی مراحل از جمع آوری دادهها گرفته تا تحلیل دادهها، مدل سازی، آزمایش و کاربرد، اخلاق را رعایت کنید. همچنین در هنگام تفسیر دادهها، اخلاق مدار باشید.
شاید شما به دنبال گرفتن مدرک کارشناسی ارشد در علم داده یا در تحلیل تجارت باشید، اگر شرایط به شما اجازه می دهد این کار را انجام دهید. اگر نمیتوانید مدرک کارشناسی ارشد در این رشتهها دریافت کنید، پس مسیر خودآموزی را شروع کنید. به طور کلی، اگر پیش زمینه جامعی در رشتههایی مانند فیزیک، ریاضیات، آمار، اقتصاد، مهندسی یا علوم رایانه داشته باشید و علاقهمند در زمینه علم داده هستید، بهترین راه این است که با دورههای آنلاین شروع کنید و پس از ایجاد یک پایه یا پیش زمینه، به دنبال راههای دیگری برای افزایش دانش و تخصص خود باشید. برای مثال مطالعه کتب درسی در این زمینه، مشارکت در پروژههای مرتبط و تعامل با دیگر افراد مشتاق در حوزه علم داده.
به طور خلاصه، در این مقاله 14 سوال متداول و مهم برای مشتاقان علم داده بررسی شد. مسیر علم داده برای هر فرد بر اساس سوابقش میتواند بسیار متفاوت باشد؛ اما در این مقاله راهکارهای متعددی برای آنها ارائه شد.
دیگر منابع موجود در مورد علم داده / یادگیری ماشین:
· تا چه حد دانش ریاضی در علم داده لازم است؟ (How Much Math do I need in Data Science?)
· برنامه درسی علم داده (Data Science Curriculum)
· پنج مدرک برتر برای ورود به علم داده (5 Best Degrees for Getting into Data Science)
· مبانی نظری علم داده (Theoretical Foundations of Data Science)
· برنامه ریزی پروژه یادگیری ماشین (Machine Learning Project Planning)
· چگونه پروژه علم داده خود را سازماندهی کنیم؟ (How to Organize Your Data Science Project)
· ابزارهای بهره وری برای پروژههای علم داده در مقیاس بزرگ (Productivity Tools for Large-scale Data Science Projects)
· یک پورتفولیو در زمینه علم داده از یک رزومه بسیار ارزشمندتر است. (A Data Science Portfolio is More Valuable than a Resume)