۲۱ توصیه و نکته برای دانشمندان داده در سال ۲۰۲۱

شکل ۱: توصیه‌هایی برای دانشمندان داده
شکل ۱: توصیه‌هایی برای دانشمندان داده


منتشر‌شده در: towardsdatascience به تاریخ 12 فوریه 2021
لینک منبع: 21 Tips for Every Data Scientist for 2021

در این مقاله، قصد دارم ۲۱ توصیه را که از دیگر دانشمندان داده و از طریق تجربیات خودم که در طول چند سال گذشته یاد گرفته‌ام را با شما به اشتراک بگذارم.

بسته به این که چقدر در شغل خود پیشرفت کرده‌اید، برخی از این نکات قطعا بیشتر از سایرین برای شما مفید خواهند بود. برای مثال، «کمی وقت بگذارید تا کتابخانه‌ها و بسته‌های جدید را کشف و کاوش کنید» ممکن است برای کسی که تازه کارش را شروع کرده‌است مناسب نباشد.

با گفتن این جمله، بیایید شروع کنیم!

۱. ساده‌ترین راه‌حل اغلب بهترین راه‌حل است.

دانشمند داده بودن به این معنی نیست که شما باید هر مشکلی را با یک مدل یادگیری ماشینی جدید حل کنید. اگر برای یک مورد تنها یک پرس‌و‌جو (کویری) برای انجام کار کافی است، به آن پایبند باشید. اگر رگرسیون خطی برای انجام کار کافی است، یک شبکه عصبی ۱۰ لایه ایجاد نکنید.

مزایای بسیاری برای یک راه‌حل ساده‌تر، از جمله یک زمان اجرای سریع‌تر، بدهی تکنیکی کم‌تر، و به طور کلی قابلیت نگهداری آسان‌تر وجود دارد.

۲. وقت بگذارید تا به صورت دوره‌ای کتابخانه‌ها و بسته‌های جدید را کشف و کاوش کنید.

به راحتی می‌توان از کتابخانه یا بسته یا هر چیزی که با آن راحت هستید استفاده کرد، اما ابزارهای جدید به دلایلی ایجاد می‌شوند - آن‌ها برای پر کردن یک شکاف موجود با مشکلی که در حال حاضر وجود دارد، ایجاد می‌شوند. با صرف زمان برای کاوش کتابخانه‌ها و بسته‌های جدید، ابزارهای باورنکردنی پیدا کرده‌ام که زمان زیادی را برای من صرفه‌جویی کرده‌اند. در اینجا چند مورد از آن‌ها را می‌بینید:

  • مورد اول Gradio یک بسته پایتون است که به شما این امکان را می‌دهد که یک برنامه کاربردی وب برای مدل یادگیری ماشین خود به اندازه سه خط کد بسازید و گسترش دهید. این تکنیک با همان هدف Streamlit یا Flask عمل می‌کند، اما من متوجه شدم که استفاده از یک مدل توسعه‌یافته، بسیار سریع‌تر و آسان‌تر است.
  • پروفایل پانداس (Pandas Profiling) بسته دیگری است که به طور خودکار تحلیل داده اکتشافی را انجام می‌دهد و آن را در یک گزارش تثبیت می‌کند. من این را بسیار مفید می‌دانم که وقتی با مجموعه داده‌های کوچک‌تر کار می‌کنم از آن استفاده کنم. بهترین بخش این است که تنها به یک خط کد نیاز دارد!
  • مورد دیگر Kedro است که یک ابزار بهبود توسعه جریان کار است که به شما اجازه می‌دهد تا خطوط لوله ML قابل‌حمل ایجاد کنید. این روش بهترین روش‌های مهندسی نرم‌افزار را برای کد شما به کار می‌برد و آن را قابل تکرار، مدولار و مستند می‌سازد.

۳. کارآمد بودن به معنی عجله در مراحل مهم نیست.

برخی از مراحل را نمی‌توان به سادگی انجام داد. به طور خاص، باید زمان بگذارید تا درک عمیقی از مشکل کسب و کاری که سعی دارید آن را حل کنید و داده‌هایی که با آن‌ها کار می‌کنید، به دست آورید.

سوالات زیادی وجود دارند که شما باید قبل از اینکه واقعا وارد مدل شوید، بتوانید به آن‌ها پاسخ دهید.

مطالعه مقاله اول مرغ بوده یا تخم‌مرغ؟ مشکل اول کار یا سابقه کار برای دانشمندان مشتاق داده!توصیه می‌شود.

۴. معیارها مسلما مهم‌تر از خود مدل هستند.

این نکته به شکلی با نکته قبلی گره خورده است، به این معنا که شما باید درک درستی از مشکلی که سعی دارید حل کنید، داشته باشید. همراه با درک مشکل، فهمیدن این که شما سعی دارید چه معیاری را بهینه کنید اهمیت دارد، چون در پایان روز، یادگیری ماشین یک کلمه فانتزی برای آمار و بهینه‌سازی است.

به عنوان مثال، من می‌توانم یک مدل با دقت ۱۰۰٪ داشته باشم، اما اگر بخواهم یک مدل تشخیص ناهنجاری ایجاد کنم، این کار بی‌فایده است!

۵. کار شما تنها به اندازه توانایی شما برای برقراری ارتباط با آن خوب خواهد بود.

مردم از چیزهایی که درک نمی‌کنند می‌ترسند و تمایل به اجتناب از آن‌ها دارند. شما باید قادر به برقراری ارتباط با اصطلاحات فنی و تکنیک‌های مدل‌سازی به شیوه‌ای باشید که افراد غیر فنی نیز بتوانند آن را درک کنند. اگر زمان بگذارید تا یک مدل عالی بسازید، باید زمان بیشتری برای برقراری ارتباط موثر با آن صرف کنید تا مردم بتوانند کار سخت شما را بشناسند!

۶. اصول، به خصوص آمار را یاد بگیرید.

علم داده و یادگیری ماشین در اصل یک نسخه مدرن از آمار هستند. با یادگیری آمار در ابتدا، زمانی که صحبت از یادگیری مفاهیم و الگوریتم‌های یادگیری ماشین می‌شود، شما کار بسیار ساده‌تری خواهید داشت.

۷. پارامترهای خود را در مورد مشکلی که حل می‌کنید بدانید.

این را می‌توان به بهترین شکل با یک مثال توضیح داد.

برای یکی از پروژه‌هایم، من باید یک مدل برای پیش‌بینی اینکه آیا یک محصول باید RMA باشد یا نه، توسعه می‌دادم. در ابتدا، من فکر کردم که ورودی من همه محصولات هستند که آن را تقریبا مانند یک مشکل تشخیص ناهنجاری می‌سازد.

تنها بعد از درک نیازهای کسب‌وکار و نحوه استفاده از مدل متوجه شدم که ورودی مدل من تمام محصولاتی بودند که به عنوان یک RMA گزارش شده بودند (مشتری یک ایمیل در مورد مشکل محصول فرستاده بود). این کار داده‌ها را متعادل‌تر کرد و زمان زیادی را برای من صرفه‌جویی کرد.

۸. قدرت SQL را دست‌کم نگیرید.

زبان SQL زبان داده جهانی است - مسلما مهم‌ترین مهارت برای یادگیری در هر نوع حرفه مرتبط با داده است، چه شما یک دانشمند داده باشید، چه مهندس داده، چه تحلیلگر داده، چه تحلیلگر کسب‌وکار، و ... به زبان SQL نیاز خواهید داشت.

نه تنها SQL برای ساخت خطوط لوله، کشیدن داده‌ها و ازدحام داده‌ها مهم است، بلکه در واقع شما می‌توانید مدل‌های یادگیری ماشین را با استفاده از پرسوجوهای SQL ایجاد کنید. در حقیقت BigQuery به شما اجازه می‌دهد که دقیقا این کار را انجام دهید.

۹. با علم داده مانند یک ورزش تیمی رفتار کنید.

یکی از بزرگ‌ترین مزایای دانشمند داده بودن میزان استقلال و خودمختاری است که به شما داده می‌شود. اما اگر نمی‌خواهید از دیگران مشاوره، کمک و بازخورد بگیرید، این می‌تواند به راحتی باعث سقوط شما شود.

علی‌رغم سطح استقلال، علم داده یک ورزش تیمی است. شما باید مشاوره و بازخورد چندین سهامدار، از جمله کاربران نهایی، متخصصان دامنه، مهندسان داده، و غیره را بپذیرید.

۱۰. وقت خود را با سعی کردن برای به خاطر سپردن همه چیز هدر ندهید.

موارد زیادی در این رشته برای به خاطر سپردن وجود دارد. به علاوه این کار وقت تلف کردن بارزی است. شما بهتر است تمرین کنید که چگونه سوالات خود را در گوگل به اشتراک بگذارید تا بتوانید جواب‌هایی که نیاز دارید را به دست آورید.

همچنین، یک صفحه گوگل را برای نگه داشتن لینک‌های واقعا مفید که معمولا به آن‌ها برمی گردید، راه‌اندازی کنید. برای من، من دوست دارم که لینک‌هایی برای تقلب در برگه‌های تقلب، دوره‌ها، و سوالاتی که من زیاد آنها را در گوگل جستجو می‌کنم را در نظر بگیرم (به عنوان مثال. کد regex برای ایمیل‌ها).

۱۱. به سرعت توسعه دهید، سریع تکرار کنید، و به طور مداوم بازخورد بگیرید.

مهم است که به طور مداوم با ذینفعان دیگر ارتباط برقرار کنید، آن‌ها را در حلقه تفکر - فرآیند خود، و هر گونه فرضی که برای مدل ایجاد می‌کنید، و دریافت بازخورد نگه دارید. در غیر این صورت، ممکن است به مدلی برسید که مشکل موجود را حل نکند.

من شخصا از Gradio برای ایجاد UIs وب برای هر تکرار از مدل خود در زمان به اشتراک گذاری آن با ذینفعان، به خصوص افراد غیر همکار استفاده می‌کنم.

من Gradio را به دلایل زیر بسیار مفید می‌دانم:

  • این به من اجازه می‌دهد تا ورودی‌های مختلف را به طور تعاملی در مدل آزمایش کنم.
  • این به من اجازه می‌دهد تا از کاربران دامنه و متخصصان دامنه بازخورد بگیرم (که ممکن است کدنویس نباشند).
  • پیاده‌سازی آن به ۳ خط کد نیاز دارد و می‌تواند به راحتی از طریق یک لینک عمومی توزیع شود.

۱۲. به یک پروژه به چشم یک مسیر کامل نگاه کنید. شما به همان اندازه که یک مدل را ایجاد می‌کنید، مسئول اجرای یک مدل نیز هستید.

روزهایی که شما به عنوان یک دانشمند داده می‌توانستید کتاب Jupyter Notebook خود را به تیم مهندسی برای اجرا تحویل دهید، گذشته است. این روزها، دانشمندان داده بیشتر شبیه مهندسان اسلش دانشمندان داده هستند که مدیران محصولات را کنار می‌زنند.

۱۳. همه چیز به معنای یک تبلیغ برای فروش است.

به عنوان یک دانشمند داده، شما همیشه خودتان را می‌فروشید، چه بخواهید یک ایده جدید بفروشید و چه بخواهید یک مدل که ساخته‌اید را بفروشید. مشابه با نکته شماره ۵، شما باید بتوانید ارزش کسب‌وکار حاصل از هر ایده، هر مدل، و هر پروژه‌ای که برعهده می‌گیرید را اعلام کنید.

ممکن است مطالعه مقاله ۵ درسی که باید در ابتدای یادگیری علوم داده بدانید. برای شما مفید باشد.

۱۴. یک برنامه پایدار برای یادگیری مداوم تهیه کنید.

اگر می‌خواهید یاد بگیرید، این کار را درست انجام دهید. ممکن است از منحنی فراموشی چیزی شنیده باشید. به بیان ساده، شما باید در یادگیری علوم داده و تمرین آنچه که یاد می‌گیرید، اگر می‌خواهید قادر به حفظ اطلاعات جدید باشید، استوار باشید.

با خودتان صادق باشید و برنامه‌ای بریزید که بتوانید به آن پایبند باشید. اما سازگاری کلید اصلی است.

۱۵. یاد بگیرید چگونه از Git و GitHub استفاده کنید.

یادگیری بهترین شیوه‌های مهندسی نرم‌افزار راه طولانی خواهد بود.
کنترل نسخه به ویژه یکی از مهم‌ترین اقدامات است زیرا هر شرکتی از آن استفاده می‌کند!

من این دو منبع را بررسی می‌کنم:

  • اولین مورد Codecademy-Learn Git
  • مور دوم Git Branching را بیاموزید.

۱۶. با انجام دادن یاد بگیرید.

شما دانش و مهارت‌های بیشتری را با انجام دادن به جای فقط مطالعه کردن یاد خواهید گرفت و حفظ خواهید کرد. مشابه به این که بعد از یادگیری یک مفهوم جدید در مدرسه، چگونه تکالیف خود را انجام می‌دهید، باید به طور مداوم آنچه را که یاد می‌گیرید در پروژه‌ها به کار ببرید.

۱۷. با آنچه در جریان است در تماس باشید.

در ارتباط با بررسی ابزارها و کتابخانه‌های جدید، مهم است که با آنچه که در علوم داده جدید است هماهنگ باشید تا بتوانید مهارت‌ها و ابزارهای خود را تا جای ممکن به روز نگه دارید.

من دوست دارم این کار را با خواندن نشریات، تماشای ویدیوهای یوتیوب، و خواندن وبلاگ‌های شرکتی، مانند Airbnb، Uber، گوگل، و فیسبوک انجام دهم.

۱۸. یاد بگیرید که تفکر واگرا و همگرا را به کار ببرید.

این یک تکنیک فوق‌العاده مفید برای استفاده در علوم داده است تا مطمئن شوید که تمام گزینه‌ها را به پایان رسانده‌اید. تفکر واگرا به معنای کشف راه‌حل‌های متعدد برای یک مشکل خاص است و تفکر همگرا به معنای محدود کردن گزینه‌های شما به یک راه‌حل است. این امر به ویژه در هنگام اجرای EDA و انتخاب یک مدل / الگوریتم برای استفاده مفید است.

شاید به مطالعه مقاله چند نکته کاربردی برای دانشمند داده فریلنسر مبتدی علاقه‌مند باشید.

۱۹. مستند کردن کار خود را شروع کنید.

این چیزی است که من در واقع تا زمانی که دوستم، اودارا، در مورد آن چیزی ننوشت، در مورد آن چیزی نشنیده بودم. این کتاب در اصل یک ژورنال یا دفتر خاطرات برای شغل شماست. بر خلاف رزومه، که برای کارفرمایان است، مستند کردن یک کار برای شما به این معنی است که به عقب نگاه کنید و به آن فکر کنید.

۲۰. یادگیری اینکه چگونه انتظارات را برآورده کنید، تفاوت بزرگی در میزان موفقیت‌تان در حرفه شما ایجاد می‌کند.

کم‌تر قول بدهید. بیشتر تحویل بدهید.

این امر به طور خاص برای دانشمندان داده مرتبط است زیرا یک دانشمند داده می‌تواند زمان کمتری را صرف ایجاد یک مدل کند. یک دانشمند داده می‌تواند یک مدل متوسط را با استفاده از کتابخانه‌های خودکار ML بسازد یا یک مدل تقریبا کامل بسازد اما ماه‌ها طول می‌کشد تا آن را تکمیل کند.

صرف‌نظر از این که چه چیزی را انتخاب می‌کنید، مهم است که انتظارات را مدیریت کنید تا سهامداران ناامید نشوند. به طور خاص، این به معنای مدیریت انتظارات از نظر خط زمانی و عملکرد مدل‌ها است.

۲۱. یک مربی پیدا کنید که مایل باشد به شما کمک کند و او را دنبال کنید.

یکی از بزرگ‌ترین چیزهایی که در زندگی حرفه‌ای‌ام برای من اتفاق افتاد پیدا کردن یک مربی بود که بسیار آگاه بود و عمیقا به موفقیت من اهمیت می‌داد.

باید بگویم که به خاطر او، من دو برابر حالت عادی یاد گرفته‌ام.

این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.