من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
۲۱ توصیه و نکته برای دانشمندان داده در سال ۲۰۲۱
منتشرشده در: towardsdatascience به تاریخ 12 فوریه 2021
لینک منبع: 21 Tips for Every Data Scientist for 2021
در این مقاله، قصد دارم ۲۱ توصیه را که از دیگر دانشمندان داده و از طریق تجربیات خودم که در طول چند سال گذشته یاد گرفتهام را با شما به اشتراک بگذارم.
بسته به این که چقدر در شغل خود پیشرفت کردهاید، برخی از این نکات قطعا بیشتر از سایرین برای شما مفید خواهند بود. برای مثال، «کمی وقت بگذارید تا کتابخانهها و بستههای جدید را کشف و کاوش کنید» ممکن است برای کسی که تازه کارش را شروع کردهاست مناسب نباشد.
با گفتن این جمله، بیایید شروع کنیم!
۱. سادهترین راهحل اغلب بهترین راهحل است.
دانشمند داده بودن به این معنی نیست که شما باید هر مشکلی را با یک مدل یادگیری ماشینی جدید حل کنید. اگر برای یک مورد تنها یک پرسوجو (کویری) برای انجام کار کافی است، به آن پایبند باشید. اگر رگرسیون خطی برای انجام کار کافی است، یک شبکه عصبی ۱۰ لایه ایجاد نکنید.
مزایای بسیاری برای یک راهحل سادهتر، از جمله یک زمان اجرای سریعتر، بدهی تکنیکی کمتر، و به طور کلی قابلیت نگهداری آسانتر وجود دارد.
۲. وقت بگذارید تا به صورت دورهای کتابخانهها و بستههای جدید را کشف و کاوش کنید.
به راحتی میتوان از کتابخانه یا بسته یا هر چیزی که با آن راحت هستید استفاده کرد، اما ابزارهای جدید به دلایلی ایجاد میشوند - آنها برای پر کردن یک شکاف موجود با مشکلی که در حال حاضر وجود دارد، ایجاد میشوند. با صرف زمان برای کاوش کتابخانهها و بستههای جدید، ابزارهای باورنکردنی پیدا کردهام که زمان زیادی را برای من صرفهجویی کردهاند. در اینجا چند مورد از آنها را میبینید:
- مورد اول Gradio یک بسته پایتون است که به شما این امکان را میدهد که یک برنامه کاربردی وب برای مدل یادگیری ماشین خود به اندازه سه خط کد بسازید و گسترش دهید. این تکنیک با همان هدف Streamlit یا Flask عمل میکند، اما من متوجه شدم که استفاده از یک مدل توسعهیافته، بسیار سریعتر و آسانتر است.
- پروفایل پانداس (Pandas Profiling) بسته دیگری است که به طور خودکار تحلیل داده اکتشافی را انجام میدهد و آن را در یک گزارش تثبیت میکند. من این را بسیار مفید میدانم که وقتی با مجموعه دادههای کوچکتر کار میکنم از آن استفاده کنم. بهترین بخش این است که تنها به یک خط کد نیاز دارد!
- مورد دیگر Kedro است که یک ابزار بهبود توسعه جریان کار است که به شما اجازه میدهد تا خطوط لوله ML قابلحمل ایجاد کنید. این روش بهترین روشهای مهندسی نرمافزار را برای کد شما به کار میبرد و آن را قابل تکرار، مدولار و مستند میسازد.
۳. کارآمد بودن به معنی عجله در مراحل مهم نیست.
برخی از مراحل را نمیتوان به سادگی انجام داد. به طور خاص، باید زمان بگذارید تا درک عمیقی از مشکل کسب و کاری که سعی دارید آن را حل کنید و دادههایی که با آنها کار میکنید، به دست آورید.
سوالات زیادی وجود دارند که شما باید قبل از اینکه واقعا وارد مدل شوید، بتوانید به آنها پاسخ دهید.
مطالعه مقاله اول مرغ بوده یا تخممرغ؟ مشکل اول کار یا سابقه کار برای دانشمندان مشتاق داده!توصیه میشود.
۴. معیارها مسلما مهمتر از خود مدل هستند.
این نکته به شکلی با نکته قبلی گره خورده است، به این معنا که شما باید درک درستی از مشکلی که سعی دارید حل کنید، داشته باشید. همراه با درک مشکل، فهمیدن این که شما سعی دارید چه معیاری را بهینه کنید اهمیت دارد، چون در پایان روز، یادگیری ماشین یک کلمه فانتزی برای آمار و بهینهسازی است.
به عنوان مثال، من میتوانم یک مدل با دقت ۱۰۰٪ داشته باشم، اما اگر بخواهم یک مدل تشخیص ناهنجاری ایجاد کنم، این کار بیفایده است!
۵. کار شما تنها به اندازه توانایی شما برای برقراری ارتباط با آن خوب خواهد بود.
مردم از چیزهایی که درک نمیکنند میترسند و تمایل به اجتناب از آنها دارند. شما باید قادر به برقراری ارتباط با اصطلاحات فنی و تکنیکهای مدلسازی به شیوهای باشید که افراد غیر فنی نیز بتوانند آن را درک کنند. اگر زمان بگذارید تا یک مدل عالی بسازید، باید زمان بیشتری برای برقراری ارتباط موثر با آن صرف کنید تا مردم بتوانند کار سخت شما را بشناسند!
۶. اصول، به خصوص آمار را یاد بگیرید.
علم داده و یادگیری ماشین در اصل یک نسخه مدرن از آمار هستند. با یادگیری آمار در ابتدا، زمانی که صحبت از یادگیری مفاهیم و الگوریتمهای یادگیری ماشین میشود، شما کار بسیار سادهتری خواهید داشت.
۷. پارامترهای خود را در مورد مشکلی که حل میکنید بدانید.
این را میتوان به بهترین شکل با یک مثال توضیح داد.
برای یکی از پروژههایم، من باید یک مدل برای پیشبینی اینکه آیا یک محصول باید RMA باشد یا نه، توسعه میدادم. در ابتدا، من فکر کردم که ورودی من همه محصولات هستند که آن را تقریبا مانند یک مشکل تشخیص ناهنجاری میسازد.
تنها بعد از درک نیازهای کسبوکار و نحوه استفاده از مدل متوجه شدم که ورودی مدل من تمام محصولاتی بودند که به عنوان یک RMA گزارش شده بودند (مشتری یک ایمیل در مورد مشکل محصول فرستاده بود). این کار دادهها را متعادلتر کرد و زمان زیادی را برای من صرفهجویی کرد.
۸. قدرت SQL را دستکم نگیرید.
زبان SQL زبان داده جهانی است - مسلما مهمترین مهارت برای یادگیری در هر نوع حرفه مرتبط با داده است، چه شما یک دانشمند داده باشید، چه مهندس داده، چه تحلیلگر داده، چه تحلیلگر کسبوکار، و ... به زبان SQL نیاز خواهید داشت.
نه تنها SQL برای ساخت خطوط لوله، کشیدن دادهها و ازدحام دادهها مهم است، بلکه در واقع شما میتوانید مدلهای یادگیری ماشین را با استفاده از پرسوجوهای SQL ایجاد کنید. در حقیقت BigQuery به شما اجازه میدهد که دقیقا این کار را انجام دهید.
۹. با علم داده مانند یک ورزش تیمی رفتار کنید.
یکی از بزرگترین مزایای دانشمند داده بودن میزان استقلال و خودمختاری است که به شما داده میشود. اما اگر نمیخواهید از دیگران مشاوره، کمک و بازخورد بگیرید، این میتواند به راحتی باعث سقوط شما شود.
علیرغم سطح استقلال، علم داده یک ورزش تیمی است. شما باید مشاوره و بازخورد چندین سهامدار، از جمله کاربران نهایی، متخصصان دامنه، مهندسان داده، و غیره را بپذیرید.
۱۰. وقت خود را با سعی کردن برای به خاطر سپردن همه چیز هدر ندهید.
موارد زیادی در این رشته برای به خاطر سپردن وجود دارد. به علاوه این کار وقت تلف کردن بارزی است. شما بهتر است تمرین کنید که چگونه سوالات خود را در گوگل به اشتراک بگذارید تا بتوانید جوابهایی که نیاز دارید را به دست آورید.
همچنین، یک صفحه گوگل را برای نگه داشتن لینکهای واقعا مفید که معمولا به آنها برمی گردید، راهاندازی کنید. برای من، من دوست دارم که لینکهایی برای تقلب در برگههای تقلب، دورهها، و سوالاتی که من زیاد آنها را در گوگل جستجو میکنم را در نظر بگیرم (به عنوان مثال. کد regex برای ایمیلها).
۱۱. به سرعت توسعه دهید، سریع تکرار کنید، و به طور مداوم بازخورد بگیرید.
مهم است که به طور مداوم با ذینفعان دیگر ارتباط برقرار کنید، آنها را در حلقه تفکر - فرآیند خود، و هر گونه فرضی که برای مدل ایجاد میکنید، و دریافت بازخورد نگه دارید. در غیر این صورت، ممکن است به مدلی برسید که مشکل موجود را حل نکند.
من شخصا از Gradio برای ایجاد UIs وب برای هر تکرار از مدل خود در زمان به اشتراک گذاری آن با ذینفعان، به خصوص افراد غیر همکار استفاده میکنم.
من Gradio را به دلایل زیر بسیار مفید میدانم:
- این به من اجازه میدهد تا ورودیهای مختلف را به طور تعاملی در مدل آزمایش کنم.
- این به من اجازه میدهد تا از کاربران دامنه و متخصصان دامنه بازخورد بگیرم (که ممکن است کدنویس نباشند).
- پیادهسازی آن به ۳ خط کد نیاز دارد و میتواند به راحتی از طریق یک لینک عمومی توزیع شود.
۱۲. به یک پروژه به چشم یک مسیر کامل نگاه کنید. شما به همان اندازه که یک مدل را ایجاد میکنید، مسئول اجرای یک مدل نیز هستید.
روزهایی که شما به عنوان یک دانشمند داده میتوانستید کتاب Jupyter Notebook خود را به تیم مهندسی برای اجرا تحویل دهید، گذشته است. این روزها، دانشمندان داده بیشتر شبیه مهندسان اسلش دانشمندان داده هستند که مدیران محصولات را کنار میزنند.
۱۳. همه چیز به معنای یک تبلیغ برای فروش است.
به عنوان یک دانشمند داده، شما همیشه خودتان را میفروشید، چه بخواهید یک ایده جدید بفروشید و چه بخواهید یک مدل که ساختهاید را بفروشید. مشابه با نکته شماره ۵، شما باید بتوانید ارزش کسبوکار حاصل از هر ایده، هر مدل، و هر پروژهای که برعهده میگیرید را اعلام کنید.
ممکن است مطالعه مقاله ۵ درسی که باید در ابتدای یادگیری علوم داده بدانید. برای شما مفید باشد.
۱۴. یک برنامه پایدار برای یادگیری مداوم تهیه کنید.
اگر میخواهید یاد بگیرید، این کار را درست انجام دهید. ممکن است از منحنی فراموشی چیزی شنیده باشید. به بیان ساده، شما باید در یادگیری علوم داده و تمرین آنچه که یاد میگیرید، اگر میخواهید قادر به حفظ اطلاعات جدید باشید، استوار باشید.
با خودتان صادق باشید و برنامهای بریزید که بتوانید به آن پایبند باشید. اما سازگاری کلید اصلی است.
۱۵. یاد بگیرید چگونه از Git و GitHub استفاده کنید.
یادگیری بهترین شیوههای مهندسی نرمافزار راه طولانی خواهد بود.
کنترل نسخه به ویژه یکی از مهمترین اقدامات است زیرا هر شرکتی از آن استفاده میکند!
من این دو منبع را بررسی میکنم:
- اولین مورد Codecademy-Learn Git
- مور دوم Git Branching را بیاموزید.
۱۶. با انجام دادن یاد بگیرید.
شما دانش و مهارتهای بیشتری را با انجام دادن به جای فقط مطالعه کردن یاد خواهید گرفت و حفظ خواهید کرد. مشابه به این که بعد از یادگیری یک مفهوم جدید در مدرسه، چگونه تکالیف خود را انجام میدهید، باید به طور مداوم آنچه را که یاد میگیرید در پروژهها به کار ببرید.
۱۷. با آنچه در جریان است در تماس باشید.
در ارتباط با بررسی ابزارها و کتابخانههای جدید، مهم است که با آنچه که در علوم داده جدید است هماهنگ باشید تا بتوانید مهارتها و ابزارهای خود را تا جای ممکن به روز نگه دارید.
من دوست دارم این کار را با خواندن نشریات، تماشای ویدیوهای یوتیوب، و خواندن وبلاگهای شرکتی، مانند Airbnb، Uber، گوگل، و فیسبوک انجام دهم.
۱۸. یاد بگیرید که تفکر واگرا و همگرا را به کار ببرید.
این یک تکنیک فوقالعاده مفید برای استفاده در علوم داده است تا مطمئن شوید که تمام گزینهها را به پایان رساندهاید. تفکر واگرا به معنای کشف راهحلهای متعدد برای یک مشکل خاص است و تفکر همگرا به معنای محدود کردن گزینههای شما به یک راهحل است. این امر به ویژه در هنگام اجرای EDA و انتخاب یک مدل / الگوریتم برای استفاده مفید است.
شاید به مطالعه مقاله چند نکته کاربردی برای دانشمند داده فریلنسر مبتدی علاقهمند باشید.
۱۹. مستند کردن کار خود را شروع کنید.
این چیزی است که من در واقع تا زمانی که دوستم، اودارا، در مورد آن چیزی ننوشت، در مورد آن چیزی نشنیده بودم. این کتاب در اصل یک ژورنال یا دفتر خاطرات برای شغل شماست. بر خلاف رزومه، که برای کارفرمایان است، مستند کردن یک کار برای شما به این معنی است که به عقب نگاه کنید و به آن فکر کنید.
۲۰. یادگیری اینکه چگونه انتظارات را برآورده کنید، تفاوت بزرگی در میزان موفقیتتان در حرفه شما ایجاد میکند.
کمتر قول بدهید. بیشتر تحویل بدهید.
این امر به طور خاص برای دانشمندان داده مرتبط است زیرا یک دانشمند داده میتواند زمان کمتری را صرف ایجاد یک مدل کند. یک دانشمند داده میتواند یک مدل متوسط را با استفاده از کتابخانههای خودکار ML بسازد یا یک مدل تقریبا کامل بسازد اما ماهها طول میکشد تا آن را تکمیل کند.
صرفنظر از این که چه چیزی را انتخاب میکنید، مهم است که انتظارات را مدیریت کنید تا سهامداران ناامید نشوند. به طور خاص، این به معنای مدیریت انتظارات از نظر خط زمانی و عملکرد مدلها است.
۲۱. یک مربی پیدا کنید که مایل باشد به شما کمک کند و او را دنبال کنید.
یکی از بزرگترین چیزهایی که در زندگی حرفهایام برای من اتفاق افتاد پیدا کردن یک مربی بود که بسیار آگاه بود و عمیقا به موفقیت من اهمیت میداد.
باید بگویم که به خاطر او، من دو برابر حالت عادی یاد گرفتهام.
این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
تصویرسازی دادههای گرافیکی با استفاده از D3
مطلبی دیگر از این انتشارات
هوش مصنوعی برای انجام کارهای ساده و کودکانه بیش از حد بالغ است!
مطلبی دیگر از این انتشارات
۱۱ ایده برای تقویت بازاریابی کسبوکار