من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
چگونه یک دانشمند داده (دیتاساینتیست) شویم؟
در طول سالها روی بسیاری از پروژههای علم داده کار کردم. به یاد میآورم که از دست دادن و هدر دادن مقدار زیادی انرژی در مسیر اشتباه چقدر آسان بود. به مرور زمان، یاد گرفتم که چه چیزی برای من موثرتر است. این لیست بهترین تلاش من برای جمعبندی است:
۱- ابتدا یک خط لوله کاری بسازید
با اینکه شروع کردن با چیزهای جالب وسوسه کننده است، اما شما میخواهید مطمئن شوید که وقت خود را صرف چیزهای فنی کوچک مانند بارگیری دادهها، استخراج ویژگی و غیره نکنید. من دوست دارم با یک خط لوله بسیار ساده شروع کنم، اما خط لولهای که کار میکند، یعنی، میتوانم آن را اجرا کنم تا به پایان برسد و به نتیجه برسد. بعدا در حالی که خط لوله در حال کار است، من هر بخش را گسترش میدهم.
۲. ساده شروع کنید و تنها یک چیز را در هر زمان پیچیده کنید
زمانی که یک خط لوله کاری دارید، شروع به گسترش و بهبود آن کنید. باید قدم به قدم آن را بردارید. بسیار مهم است که بدانیم چه چیزی باعث آن شدهاست. اگر شما تغییرات زیادی را در یک زمان معرفی کنید، تشخیص اینکه هر تغییر چگونه بر کل مدل تاثیر میگذارد سخت خواهد بود. به روز رسانی ها را تا جای ممکن ساده و تمیز نگه دارید. نه تنها درک تاثیر آن آسانتر خواهد بود، بلکه زمانی که ایده دیگری به ذهنتان رسید، بازتعریف آن نیز آسانتر خواهد بود.
۳. در مورد همه چیز بپرسید
حالا شما چیزهای زیادی در دست دارید، یک خط لوله کاری دارید و در حال حاضر تغییراتی را انجام دادهاید که نتایج شما را بهبود بخشیدهاست. مهم است که بفهمیم چرا. اگر شما ویژگی جدیدی را اضافه کردهاید و به مدل در تعمیم بهتر کمک کردهاست، چرا؟ اگر نه، چرا نه؟ شاید مدل شما از قبل کندتر باشد، چرا؟ آیا مطمئنید که هر کدام از ویژگیها / ماژولهای شما کاری را انجام میدهند که فکر میکنید انجام میدهد، اگر نه، چه اتفاقی افتادهاست؟
زمانی که مشغول کار هستید، این نوع سوالات باید در ذهن شما مطرح شوند. برای رسیدن به یک نتیجه واقعا عالی، باید هر چیزی که در مدل شما اتفاق میافتد را درک کنید.
۴. تجربه زیاد و تجربه سریع
بعد از اینکه همه چیز رو زیر سوال بردید، با خیلی سوالات درگیر شدید. بهترین راه برای پاسخ به آنها تجربه کردن است. اگر تا به حال این کار را دنبال کردهاید، یک خط لوله کاری و یک کد نوشته شده خوب دارید، بنابراین انجام یک آزمایش نباید بیشتر وقت شما را هدر دهد. در حالت ایدهآل، شما قادر خواهید بود بیش از یک تجربه را در یک زمان اجرا کنید، این کار به شما کمک خواهد کرد به سوالات خود پاسخ دهید و بینش خود را نسبت به اینکه چه چیزی جواب میدهد و چه چیزی جواب نمیدهد، بهبود بخشید.
چیزهایی که باید آزمایش کنید: اضافه کردن / حذف ویژگیها، تغییر پارامترهای بالا (نه فقط برای شبکههای عصبی)! پارامترهای برداریسازی، نرمال سازی یا تکنیکهای انتخاب ویژگی نیز یک پارامتر بزرگ مدل شما هستند که باید تنظیم کنید)، تغییر معماریها، اضافه کردن / حذف دادهها و غیره.
۵. اولویتبندی و تمرکز
در این مرحله، شما کار زیادی انجام دادید، سوالات، برخی پاسخها، برخی کارهای دیگر و احتمالا ایدههای جدیدی برای بهبود مدل خود (یا حتی کار بر روی چیزی کاملا متفاوت) دارید.
اما همه اینها به یک اندازه مهم نیستند. شما باید درک کنید که سودمندترین مسیر برای شما چیست. شاید یک ایدهی عالی به ذهنتان رسیده باشد که کمی مدل شما را بهبود بخشیده اما همچنین آن را پیچیدهتر و کند کردهاست، آیا باید به این سمت ادامه دهید؟ بستگی به هدفتان دارد. اگر هدف شما انتشار یک راهحل پایه است، شاید این طور باشد. اما اگر هدف شما گسترش یک مدل سریع و نزولی برای تولید است، پس احتمالا میتوانید زمان خود را روی چیز دیگری سرمایهگذاری کنید. هدف نهایی خود را در هنگام کار به یاد داشته باشید و سعی کنید بفهمید چه کارها و یا آزمایشهایی شما را به آن نزدیکتر خواهند کرد.
۶. به معیارهای خود ایمان داشته باشید
همانطور که بحث شد، درک این که چه چیزی کار میکند و چه چیزی نه، بسیار مهم است. اما از کجا میدانید که چه زمانی چیزی جواب میدهد؟ نتایج خود را با استفاده از برخی دادههای اعتبار سنجی / آزمون ارزیابی میکنید و یک معیار بدست میآورید! شما باید این معیار را نادیده بگیرید! ممکن است دلایلی برای عدم اعتقاد به معیار شما وجود داشته باشد. مثلا ممکن است اشتباه باشد. دادههای شما ممکن است نامتعادل باشند بنابراین دقت میتواند معیار اشتباهی برای شما باشد. راهحل نهایی شما باید بسیار دقیق باشد، پس شاید بیشتر به دقت علاقمند باشید تا به خاطر آوردن.
معیار شما باید هدفی که میخواهید به آن برسید را منعکس کند. دلیل دیگر این است که به معیار خود اعتقاد نداشته باشید زمانی است که دادههای تست شما کثیف و یا پر نویز هستند. شاید شما اطلاعاتی از طریق وب دارید و دقیقا نمیدانید چه چیزی در آن وجود دارد؟ یک معیار قابلاعتماد برای پیشرفت سریع مهم است، اما همچنین مهم است که این معیار اهداف شما را نشان دهد. در علم داده، ممکن است متقاعد کردن خودمان به این که مدل ما خوب است آسان باشد، در حالی که در واقعیت، خیلی کم عمل میکند.
۷. کار برای انتشار / استقرار
بازخورد بخشی ضروری از هر کار است و علم داده نیز از این قاعده مستثنی نیست. زمانی که با دانستن اینکه کد شما توسط فرد دیگری بازبینی خواهد شد کار میکنید، کد خیلی بهتری مینویسید. وقتی که کار میکنید و میدانید که باید آن را برای کس دیگری توضیح دهید، آن را خیلی بهتر درک خواهید کرد. نیازی نیست که یک مجله یا کنفرانس یا کد تولید شرکت باشد. اگر در حال کار بر روی یک پروژه شخصی هستید، آن را متنباز کنید، در مورد آن بنویسید، آن را به دوستان خود بفرستید، به دنیا نشان دهید!
همه بازخوردها مثبت نخواهد بود، اما شما قادر خواهید بود از آن درس بگیرید و در طول زمان بهبود پیدا کنید.
۸. زیاد بخوانید و خود را بهروز نگه دارید
احتمالا من اولین کسی نیستم که این پیشنهاد را میدهم با پیشرفتهای اخیر کنار بیایم تا موثر واقع شوم، بنابراین به جای صحبت کردن در مورد آن، فقط میگویم که چطور این کار را انجام میدهم. لیستهای پستی قدیمی خوب! من آنها را بسیار مفید میدانم چون در اصل کسی که با جدیدترین نوشتهها سر و کار دارد، بهترین چیزها را انتخاب میکند و به شما میفرستد!
چند مثال:
- خبرنامه هفتگی علوم داده: https://www.datascienceweekly.org
- اخبار NLP توسط سباستین رودر : http://newsletter.ruder.io
- بتچ توسط اندرو ان جی: https://www.deeplearning.ai/thebatch
۹. کنجکاو باشید
هنگام مطالعه درباره جدیدترین و جذابترین چیزها، خود را محدود به حوزهای که به آن علاقه دارید نکنید و سعی کنید موارد دیگر (اما مرتبط) را نیز بررسی کنید. آن میتواند به چند روش مفید باشد. شما میتوانید تکنیکی پیدا کنید که در یک حوزه بسیار مفید واقع شود، توانایی خود برای درک ایدههای پیچیده را بهبود بخشید، و ممکن است حوزه دیگری پیدا کنید که مورد علاقه شما باشد تا بتوانید مهارتها و دانش خود را گسترش دهید.
نتیجهگیری
اگر موثر باشید، نتایج بسیار بهتری خواهید داشت و از این روند لذت خواهید برد. در حالی که تمام موضوعات بالا مهم هستند، اگر من مجبور باشم یکی از آنها را انتخاب کنم، «اولویتبندی و تمرکز» خواهد بود. برای من، تمام موضوعات دیگر در نهایت منجر به این یکی میشوند.
کلید موفقیت کار بر روی چیز درست است.
چاپشده در: مجله towardsdatascience به تاریخ ۱۲ فوریه ۲۰۲۰
نویسنده: Dima Shulga
لینک مقاله اصلی: https://towardsdatascience.com/how-to-be-an-effective-data-scientist-researcher-9fbfffe8d8d1
این مقاله توسط ربات هوشمند ترجمه مقالات علمی و به صورت خودکار ترجمه شده و میتواند به صورت محدود دارای اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
هوش مصنوعی نه تنها نژادپرست و جنسیتگرا است، میتواند سنگرا هم باشد
مطلبی دیگر از این انتشارات
ادغام سیاهچاله با مدارهای خارج از مرکز برای اولین بار شناسایی شد
مطلبی دیگر از این انتشارات
علوم شهروندی، کیهان و معنای زندگی: چگونه دنبالهداری که ممکن است روزی ما را نابود کند، متعالی ترین منظره آسمانی را به ما می دهد