چگونه یک دانشمند داده (دیتاساینتیست) شویم؟

در طول سال‌ها روی بسیاری از پروژه‌های علم داده کار کردم. به یاد می‌آورم که از دست دادن و هدر دادن مقدار زیادی انرژی در مسیر اشتباه چقدر آسان بود. به مرور زمان، یاد گرفتم که چه چیزی برای من موثرتر است. این لیست بهترین تلاش من برای جمع‌بندی است:

۱- ابتدا یک خط لوله کاری بسازید

با اینکه شروع کردن با چیزهای جالب وسوسه کننده است، اما شما می‌خواهید مطمئن شوید که وقت خود را صرف چیزهای فنی کوچک مانند بارگیری داده‌ها، استخراج ویژگی و غیره نکنید. من دوست دارم با یک خط لوله بسیار ساده شروع کنم، اما خط لوله‌ای که کار می‌کند، یعنی، می‌توانم آن را اجرا کنم تا به پایان برسد و به نتیجه برسد. بعدا در حالی که خط لوله در حال کار است، من هر بخش را گسترش می‌دهم.

۲. ساده شروع کنید و تنها یک چیز را در هر زمان پیچیده کنید

زمانی که یک خط لوله کاری دارید، شروع به گسترش و بهبود آن کنید. باید قدم به قدم آن را بردارید. بسیار مهم است که بدانیم چه چیزی باعث آن شده‌است. اگر شما تغییرات زیادی را در یک زمان معرفی کنید، تشخیص اینکه هر تغییر چگونه بر کل مدل تاثیر می‌گذارد سخت خواهد بود. به روز رسانی ها را تا جای ممکن ساده و تمیز نگه دارید. نه تنها درک تاثیر آن آسان‌تر خواهد بود، بلکه زمانی که ایده دیگری به ذهنتان رسید، بازتعریف آن نیز آسان‌تر خواهد بود.

۳. در مورد همه چیز بپرسید

حالا شما چیزهای زیادی در دست دارید، یک خط لوله کاری دارید و در حال حاضر تغییراتی را انجام داده‌اید که نتایج شما را بهبود بخشیده‌است. مهم است که بفهمیم چرا. اگر شما ویژگی جدیدی را اضافه کرده‌اید و به مدل در تعمیم بهتر کمک کرده‌است، چرا؟ اگر نه، چرا نه؟ شاید مدل شما از قبل کندتر باشد، چرا؟ آیا مطمئنید که هر کدام از ویژگی‌ها / ماژول‌های شما کاری را انجام می‌دهند که فکر می‌کنید انجام می‌دهد، اگر نه، چه اتفاقی افتاده‌است؟

زمانی که مشغول کار هستید، این نوع سوالات باید در ذهن شما مطرح شوند. برای رسیدن به یک نتیجه واقعا عالی، باید هر چیزی که در مدل شما اتفاق می‌افتد را درک کنید.

۴. تجربه زیاد و تجربه سریع

بعد از اینکه همه چیز رو زیر سوال بردید، با خیلی سوالات درگیر شدید. بهترین راه برای پاسخ به آن‌ها تجربه کردن است. اگر تا به حال این کار را دنبال کرده‌اید، یک خط لوله کاری و یک کد نوشته شده خوب دارید، بنابراین انجام یک آزمایش نباید بیشتر وقت شما را هدر دهد. در حالت ایده‌آل، شما قادر خواهید بود بیش از یک تجربه را در یک زمان اجرا کنید، این کار به شما کمک خواهد کرد به سوالات خود پاسخ دهید و بینش خود را نسبت به اینکه چه چیزی جواب می‌دهد و چه چیزی جواب نمی‌دهد، بهبود بخشید.

چیزهایی که باید آزمایش کنید: اضافه کردن / حذف ویژگی‌ها، تغییر پارامترهای بالا (نه فقط برای شبکه‌های عصبی)! پارامترهای برداری‌سازی، نرمال سازی یا تکنیک‌های انتخاب ویژگی نیز یک پارامتر بزرگ مدل شما هستند که باید تنظیم کنید)، تغییر معماری‌ها، اضافه کردن / حذف داده‌ها و غیره.

۵. اولویت‌بندی و تمرکز

در این مرحله، شما کار زیادی انجام دادید، سوالات، برخی پاسخ‌ها، برخی کارهای دیگر و احتمالا ایده‌های جدیدی برای بهبود مدل خود (یا حتی کار بر روی چیزی کاملا متفاوت) دارید.

اما همه اینها به یک اندازه مهم نیستند. شما باید درک کنید که سودمندترین مسیر برای شما چیست. شاید یک ایده‌ی عالی به ذهنتان رسیده باشد که کمی مدل شما را بهبود بخشیده اما همچنین آن را پیچیده‌تر و کند کرده‌است، آیا باید به این سمت ادامه دهید؟ بستگی به هدفتان دارد. اگر هدف شما انتشار یک راه‌حل پایه است، شاید این طور باشد. اما اگر هدف شما گسترش یک مدل سریع و نزولی برای تولید است، پس احتمالا می‌توانید زمان خود را روی چیز دیگری سرمایه‌گذاری کنید. هدف نهایی خود را در هنگام کار به یاد داشته باشید و سعی کنید بفهمید چه کارها و یا آزمایش‌هایی شما را به آن نزدیک‌تر خواهند کرد.

۶. به معیارهای خود ایمان داشته باشید

همانطور که بحث شد، درک این که چه چیزی کار می‌کند و چه چیزی نه، بسیار مهم است. اما از کجا می‌دانید که چه زمانی چیزی جواب می‌دهد؟ نتایج خود را با استفاده از برخی داده‌های اعتبار سنجی / آزمون ارزیابی می‌کنید و یک معیار بدست می‌آورید! شما باید این معیار را نادیده بگیرید! ممکن است دلایلی برای عدم اعتقاد به معیار شما وجود داشته باشد. مثلا ممکن است اشتباه باشد. داده‌های شما ممکن است نامتعادل باشند بنابراین دقت می‌تواند معیار اشتباهی برای شما باشد. راه‌حل نهایی شما باید بسیار دقیق باشد، پس شاید بیشتر به دقت علاقمند باشید تا به خاطر آوردن.

معیار شما باید هدفی که می‌خواهید به آن برسید را منعکس کند. دلیل دیگر این است که به معیار خود اعتقاد نداشته باشید زمانی است که داده‌های تست شما کثیف و یا پر نویز هستند. شاید شما اطلاعاتی از طریق وب دارید و دقیقا نمی‌دانید چه چیزی در آن وجود دارد؟ یک معیار قابل‌اعتماد برای پیشرفت سریع مهم است، اما همچنین مهم است که این معیار اهداف شما را نشان دهد. در علم داده، ممکن است متقاعد کردن خودمان به این که مدل ما خوب است آسان باشد، در حالی که در واقعیت، خیلی کم عمل می‌کند.

۷. کار برای انتشار / استقرار

بازخورد بخشی ضروری از هر کار است و علم داده نیز از این قاعده مستثنی نیست. زمانی که با دانستن اینکه کد شما توسط فرد دیگری بازبینی خواهد شد کار می‌کنید، کد خیلی بهتری می‌نویسید. وقتی که کار می‌کنید و می‌دانید که باید آن را برای کس دیگری توضیح دهید، آن را خیلی بهتر درک خواهید کرد. نیازی نیست که یک مجله یا کنفرانس یا کد تولید شرکت باشد. اگر در حال کار بر روی یک پروژه شخصی هستید، آن را متن‌باز کنید، در مورد آن بنویسید، آن را به دوستان خود بفرستید، به دنیا نشان دهید!

همه بازخوردها مثبت نخواهد بود، اما شما قادر خواهید بود از آن درس بگیرید و در طول زمان بهبود پیدا کنید.

۸. زیاد بخوانید و خود را به‌روز نگه دارید

احتمالا من اولین کسی نیستم که این پیشنهاد را می‌دهم با پیشرفت‌های اخیر کنار بیایم تا موثر واقع شوم، بنابراین به جای صحبت کردن در مورد آن، فقط می‌گویم که چطور این کار را انجام می‌دهم. لیست‌های پستی قدیمی خوب! من آن‌ها را بسیار مفید می‌دانم چون در اصل کسی که با جدیدترین نوشته‌ها سر و کار دارد، بهترین چیزها را انتخاب می‌کند و به شما می‌فرستد!

چند مثال:

۹. کنجکاو باشید

هنگام مطالعه درباره جدیدترین و جذاب‌ترین چیزها، خود را محدود به حوزه‌ای که به آن علاقه دارید نکنید و سعی کنید موارد دیگر (اما مرتبط) را نیز بررسی کنید. آن می‌تواند به چند روش مفید باشد. شما می‌توانید تکنیکی پیدا کنید که در یک حوزه بسیار مفید واقع شود، توانایی خود برای درک ایده‌های پیچیده را بهبود بخشید، و ممکن است حوزه دیگری پیدا کنید که مورد علاقه شما باشد تا بتوانید مهارت‌ها و دانش خود را گسترش دهید.

نتیجه‌گیری

اگر موثر باشید، نتایج بسیار بهتری خواهید داشت و از این روند لذت خواهید برد. در حالی که تمام موضوعات بالا مهم هستند، اگر من مجبور باشم یکی از آن‌ها را انتخاب کنم، «اولویت‌بندی و تمرکز» خواهد بود. برای من، تمام موضوعات دیگر در نهایت منجر به این یکی می‌شوند.

کلید موفقیت کار بر روی چیز درست است.


چاپ‌شده در: مجله towardsdatascience به تاریخ ۱۲ فوریه ۲۰۲۰
نویسنده: Dima Shulga
لینک مقاله اصلی: https://towardsdatascience.com/how-to-be-an-effective-data-scientist-researcher-9fbfffe8d8d1

این مقاله توسط ربات هوشمند ترجمه مقالات علمی و به صورت خودکار ترجمه شده و می‌تواند به صورت محدود دارای اشکالات ترجمه باشد.