اشتباهات رایجی که مبتدیان علم داده باید از آن‌ها اجتناب کنند

منتشر شده در analyticsinsight به تاریخ ۲۴ ژوئن ۲۰۲۲
لینک منبع FREQUENT MISTAKES DATA SCIENCE FRESHERS SHOULD AVOID

با پیوند بیشتر جهان و تبدیل شدن سازمان‌ها به سازمان‌های داده‌محور، به نظر می‌رسد که هر کسب‌وکاری نیاز به علم داده دارد. بنابراین، تقاضای زیادی برای دانشمندان داده وجود دارد. حتی بهتر از آن، همه کمبود مهارت در این صنعت را به رسمیت می‌شناسند.

برای اینکه واقعا موثر واقع شود، به ترکیبی از حل مساله، تفکر سیستماتیک، کدگذاری و مهارت‌های فنی مختلف نیاز است. اگر شما از محیط غیرفنی و غیر از ریاضی آمده باشید، احتمال این وجود دارد که از طریق کتاب‌ها و دوره‌های ویدیویی چیزهای زیادی یاد گرفته باشید. اکثر این منابع به شما یاد نمی‌دهند که این صنعت از یک دانشمند داده انتظار چه چیزی را دارد.

اینها برخی اشتباهات هستند که شما باید در این زمینه به عنوان یک مبتدی از آن‌ها اجتناب کنید:

پی‌گیری مستقیم تکنیک‌های یادگیری ماشینی بدون آموزش اولیه اصول

اکثر افرادی که می‌خواهند به دانشمندان داده تبدیل شوند، از فیلم‌های ربات‌ها یا مدل‌های پیش‌بینی شگفت‌انگیز و همچنین در برخی موارد، درآمدهای بالا انگیزه می‌گیرند. متاسفانه باید بگویم قبل از اینکه به آنجا برسید راه درازی را در پیش دارید.

قبل از این که یک تکنیک را برای یک مساله پیاده کنید، باید نحوه کار آن را یاد بگیرید. یادگیری این به شما کمک خواهد کرد تا بفهمید که یک الگوریتم چگونه کار می‌کند، برای بهبود آن چه می‌توانید انجام دهید، و چگونه می‌توانید استراتژی‌های موجود را ایجاد کنید. از آنجا که ریاضیات در این وضعیت حیاتی است، دانستن مفاهیم خاص همیشه مفید است.

استفاده تنها از گواهی‌ها و مدارک تحصیلی

از زمانی که علم داده بسیار مشهور شده‌است، گواهی‌ها و مدارک تقریبا در همه جا ایجاد شده‌اند. نگاه اجمالی به فید لینکدین من، حداقل ۵ عکس صدور گواهی را که با افتخار نمایش داده شده‌اند، آشکار می‌کند. در حالی که اخذ آن اعتبار کار دشواری است، اما تنها اتکا به آن فرمولی برای فاجعه است.

باور بر این که آنچه شما در رقابت‌های یادگیری ماشینی می‌بینید نماینده مشاغل زندگی واقعی است

این یکی از رایج‌ترین مغالطه‌ها در میان دانشمندان آینده داده است. مجموعه داده‌های تمیز و دست‌نخورده توسط رقابت‌ها و هکاتون‌ها فراهم شده‌اند. حتی مجموعه‌های داده با داده‌های ناقص نیازی ندارند که شما سلول‌های مغز خود را خسته کنید، به سادگی یک رویکرد انتساب ایجاد کنید و شکاف‌ها را پر کنید.

متاسفانه، شرکت‌های دنیای واقعی به این شیوه عمل نمی‌کنند. یک خط لوله انتها به انتها وجود دارد که نیازمند هم‌کاری با تعداد زیادی از مردم است. تقریبا همیشه باید با داده‌های نامنظم و کثیف کار کنید.

اولویت‌بندی دقت مدل نسبت به قابلیت اجرای دامنه و قابلیت تفسیر

همانطور که قبلا گفته شد، دقت لزوما چیزی نیست که کسب‌وکار به دنبال آن است. مطمئنا، مدلی که عدم پرداخت وام را با دقت ۹۵٪ تشخیص می‌دهد، شگفت‌انگیز است، اما مشتری شما آن را رد خواهد کرد اگر شما نمی‌توانید توصیف کنید که چگونه مدل به آنجا رسید، کدام ویژگی‌ها آن را به آنجا هدایت کرد، و نظر شما هنگام ساخت مدل چیست.

تعداد بسیاری از اصطلاحات علم داده در رزومه شما

اگر این کار را قبلا انجام داده باشید، متوجه منظور من خواهید شد. اگر رزومه شما در حال حاضر این مشکل را دارد، فورا آن را برطرف کنید! ممکن است با انواع رویکردها و فناوری‌ها آشنا باشید، اما صرفاً بیان آن‌ها مدیران استخدامی بالقوه را از دلسرد می‌کند.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.