یادگیری علم داده برای یافتن هدف و یافتن هدف برای یادگیری علم داده را متوقف کنید.

شکل ۱. یادگیری علم داده از اهمیت ویژه‌ای برخوردار است.
شکل ۱. یادگیری علم داده از اهمیت ویژه‌ای برخوردار است.
منتشر شده در kdnuggets به تاریخ ۲۰۲۱
لینک منبع: Stop Learning Data Science to Find Purpose and Find Purpose to Learn Data Science

دانشمندان داده در حال تقاضا هستند، هیچ دو راهی برای آن وجود ندارد. مشاغل به خوبی پرداخت می‌کنند، فرصت‌های زیادی در دسترس هستند، و به نظر می‌رسد که این صنعت تنها در این دنیای دیجیتال پس از همه‌گیر شدن در حال رشد است. بنابراین جای تعجب نیست که دانش آموزان علم داده نیز بخش رو به رشدی از نیروی کار جهانی هستند. اما یادگیری علم داده آسان نیست. در واقع، سخت است و به چند دلیل خوب دشوار است:

۱. علم داده به عنوان یک حرفه، بسیاری از تخصص‌های فرعی مختلف را در هم می‌آمیزد که در نوع خود حرفه‌هایی هستند، مانند مهندسی داده، برنامه‌نویسی، آمار و تجسم داده‌ها.

۲. صنعت و ابزارها و تکنولوژی‌های مرتبط به سرعت در حال تحول هستند، که این امر شناخت محل تمرکز مطالعات فرد را دشوار می‌سازد.

۳. یک شکاف بین علم داده تدریس شده در محیط‌های آموزشی (دانشگاه‌ها، آموزش‌های دیجیتال) و علم داده مورد استفاده در شرکت‌ها وجود دارد.

۴. با گستره وسیع دانش مورد نیاز، از دست دادن اعتماد به توانایی خود برای انتقال مؤثر ارزش تحصیلی به کارفرمای احتمالی آسان است.

من تجربه خودم را به یاد می‌آورم که سعی می‌کردم از یک محقق دانشگاهی آگاه به داده به یک متخصص علم داده صنعتی بروم. بنده خود را در معرض تمام آموزش‌ها، وبلاگ‌ها، و برنامه‌های آموزشی MOOC که می‌توانستم قرار دادم. خودم را در اخبار و روندهای صنعت غرق کردم. سطل را تا لبه پر کردم و فهمیدم که هر چه بیشتر یاد می‌گیرم، بیشتر می‌فهمم که نمی‌دانم. من استرس زده بودم، در مورد مهارت‌هایی که داشتم، اعتماد به نفس نداشتم، و احساس می‌کردم که به‌عنوان یک متقلب در حال انجام مصاحبه‌های علوم داده هستم با این امید که من با یک «gotcha» روبرو نشوم، زیرا زمان کافی را برای عملکردهای از دست دادن صرف نکردم.

من خودم را با آموزش علم داده غرق کردم با این امید که وسعت معرض دیدم مرا به هدفم و دستمزد بهتری برساند. چیزی که در آن زمان نمی‌دانستم این بود که گاری را جلوی اسب گذاشته بودم. (کنایه از نعل وارونه زدن) من به قدری مشتاق یادگیری بودم که تمام وقتم را صرف یادگیری بسیاری از «چیزها» می‌کردم، بدون اینکه هرگز از خودم بپرسم؛ چگونه همه این «چیزها» برای حل مشکلات واقعی کنار هم جمع می‌شوند؟

به من اجازه دهید یک راز آشکار را به شما بگویم، اکثر مشاغل به "چیزهای" علم داده اهمیتی نمی‌دهند. اغلب کسب‌وکارها تنها به این مساله اهمیت می‌دهند که آیا این چیزها می‌توانند مشکلات کسب‌وکار را حل کنند یا خیر. بنابراین در اینجا تلاش می‌کنیم تا تمام ابزارهای علم داده را یاد بگیریم تا رزومه شما بتواند با یک لیست همیشه در حال گسترش از چیزها پر شود (پایتون، R، رگرسیون، random forest، نایو بیز، زنجیره مارکوف، ماشین‌های بردار پشتیبان، خوشه‌بندی k-means، شبکه‌های عصبی کانولوشن، XGBoost، پردازش زبان طبیعی و غیره) بیهوده است.

این «چیزها» شما را به سمت هدف شما سوق نخواهد داد زیرا هدفتان تنها با این تعریف می‌شود که در کجا احساس ارزش می‌کنید. جایی که احساس می‌کنید ارزشمند هستید جایی است که به دانش در حال تکامل خود از علم داده اجازه می‌دهید برای حل مشکلات به کار گرفته شود. توانایی برقراری ارتباط با چگونگی استفاده شما از برخی از ابزارهای علم داده برای حل یک مشکل، شما را در کسب‌وکار بسیار فراتر از لیست کردن تمام الگوریتم‌هایی که در یک کلاس در معرض آن‌ها قرار گرفته‌اید، می‌برد.

پس من چگونه باید به یادگیری علم داده‌ها نزدیک شوم؟

به طور خلاصه، ابتدا یک هدف پیدا کنید. به چی اهمیت می‌دهی؟ احساسات و عواطف شما کجا قرار دارند؟ چه مشکلاتی را می‌خواهید حل کنید؟ زمانی که یک لیست دارید، چیزی را انتخاب کنید و در نظر بگیرید که دانش علم داده شما چگونه می‌تواند برای حل یک مشکل مربوط به آن موضوع به کار رود.

فواید علم داده با هدف

با یافتن هدف خود ابتدا، به آموزش علوم داده خود با زمینه نزدیک خواهید شد و ابزارهایی که به دنبال یادگیری آن هستید، احساس شکست کمتری خواهند کرد، زیرا لزوما تعداد کمتری از آن‌ها وجود خواهند داشت که کاربرد آن‌ها منطقی به نظر می‌رسد.

دانش، شور و شوق و درک مشکل شما نیز خلاقیت شما را باز خواهد کرد. حل مساله خلاقانه این است که ببینیم چگونه درک ما از دو یا چند زمینه متفاوت می‌تواند به روش‌های جدید ترکیب شود. اگر ما تنها غرق در یادگیری علم داده‌ها در زمینه مجموعه داده‌های «کنسرو شده» خود و مشکلات بی‌طرفانه شویم، دیگر نمی‌توانیم عمق دانش خود را از زمینه‌های متعدد فراتر ببریم.

ابتدا با پیدا کردن هدف خود، به سرعت یاد خواهید گرفت که راه‌حل‌های مختلف علم داده برای حل یک مشکل وجود دارد. به عبارت دیگر، به ندرت اتفاق می‌افتد که در علم داده درست و غلط وجود داشته باشد و بسیار رایج است که مشکلات کسب‌وکار را بتوان به روش‌های مختلف حل کرد. آیا برخی راه‌حل‌ها بهتر از بقیه هستند؟ البته. اما این بدان معنی نیست که آن‌هایی که کم‌تر بهینه هستند اشتباه می‌کنند، بلکه به آن خوبی نیستند. با پول و زمان کافی، همیشه یک راه‌حل «بهتر» وجود دارد، بنابراین بهترین راه‌حل این است که بیش از حد گرفتار این مارپیچ نشوید. در عوض، بر روی این تمرکز کنید که چگونه دانشی که دارید می‌تواند ارزش بیشتری نسبت به آنچه قبلا وجود داشت به ارمغان بیاورد یا با آشکار کردن دیدگاه‌های جدیدی که در دیگران آشکار نیستند، به راه‌حل‌های موجود اضافه کند.

اول با پیدا کردن هدف خود، شما با مشکلاتی دست و پنجه نرم خواهید کرد که اغلب در اکثر دوره‌های علم داده آموزش داده نمی‌شوند، اما آن‌ها مشکلاتی هستند که دانشمندان داده شرکتی هر روز با آن‌ها مواجه می‌شوند. برای مثال مشکل ساده یافتن داده‌های درست را در نظر بگیرید. اغلب دوره‌های علم داده به شما ارزش کشف داده را آموزش نمی‌دهند اما در داده‌های سازمانی دانشمندان داده اغلب وظیفه دارند مجموعه‌های داده جدید را کشف کرده و با آن‌ها ترکیب کنند تا ارزش داده‌های جمع‌آوری‌شده و دانشمند داده‌ای که برای ارزش‌گذاری آن استخدام شده‌اند را بیشتر درک کنند. یادگیری علم داده با یک هدف در ابتدا شما را مجبور می‌کند که به دنبال راه‌هایی برای به دست آوردن داده‌های مرتبط با مشکل خود باشید، این کار شما را ملزم می‌کند که به آن داده‌ها دسترسی داشته باشید، و آن‌ها را مهندسی کنید تا برای آموزش با مدل‌های یادگیری ماشینی مناسب باشد.

در نهایت، با پیدا کردن هدف خود، خواهید دانست که چگونه با ارزش راه‌حل‌هایی که می‌سازید ارتباط برقرار کنید.

هدف من چه بود و چگونه تحصیلاتم را تغییر داد؟

هدف من عدالت اجتماعی بود. من می‌خواستم از ابزارها و مهارت‌های علم داده برای آگاه کردن تولید بینش‌هایی استفاده کنم که بی‌عدالتی را آشکار می‌کنند، راه‌حل‌هایی برای تغییر اجتماعی مثبت فراهم می‌کنند، و به ما کمک می‌کنند تا پیامدهای تعصب انسانی را درک کنیم.

من در اولین پروژه‌ام، می‌خواستم به شناسایی بسته‌های جرایم وسایل نقلیه برای کارگران شیفت سوم کمک کنم تا از تصمیمات امن‌تر در مورد پارکینگ پشتیبانی کنند. من مجبور بودم پلیس عمومی محلی را پیدا کنم که داده را گزارش می‌دهد و آن را با دیگر منابع داده مانند داده‌های سرشماری ترکیب کنم. با استفاده از دانش علوم داده‌ای که داشتم، می‌توانم یک مدل پیش‌گویانه بسازم تا احتمال وقوع جرم خودرو (مانند سرقت، خرابکاری) را بر اساس ویژگی‌های مکان اطراف پیش‌بینی کنم. این پروژه مرا به یادگیری چالش داده‌های پایه، نحوه استخراج برخی ویژگی‌های مکانی، تست مدل‌های طبقه‌بندی مختلف برای دقت مانند random forest، رگرسیون لجستیک، و Naïve Bayes، تجسم پایه با استفاده از تابلوی عمومی و چگونگی راه‌اندازی یک خط لوله برای تازه کردن داشبورد هر بار که داده‌های پلیس تازه می‌شوند، واداشت.

آیا مشکلات دیگری هم وجود داشت که من می‌توانستم به دنبال آن‌ها بروم؟ البته. آیا ابزارهای دیگری وجود داشت که من می‌توانستم برای حل این مشکل خاص استفاده کنم؟ به طور قطع. آیا بهترین راه حل یا حتی تنها راه حل موجود در بازار را پیدا کردم؟ هیچ شانسی وجود نداشت، اما راه‌حل من بهتر از چیزی بود که وجود داشت، که هیچ بود.

من نه تنها ابزارهای خاص ذکر شده در بالا را یاد گرفتم، بلکه بینش بیشتری در مورد فرآیند علم داده به دست آوردم. توانستم به وضوح توضیح دهم که چرا می‌خواهم از مدل‌های طبقه‌بندی خاص با انواع داده‌های خاص نسبت به دیگران استفاده کنم. و از همه مهم‌تر، توانستم با شور و شوق در مورد اینکه چگونه این ابزارها به من اجازه دادند تا تصمیمات آگاهانه را با ترکیب صدها نقطه داده بگیرم صحبت کنم.

اکنون، زمانی که با هدف جدید مواجه شدم و پرسیدم که آیا یک راه‌حل علم داده برای غلبه بر مشکلات مربوط به آن هدف وجود دارد، دیگر در مورد چیزی که نمی‌دانم احساس عدم اطمینان نمی‌کنم. از این هدف استفاده می‌کنم تا آنچه می‌دانم را به کار ببرم، رویکرد خود را توضیح دهم، و چیز جدیدی را برای یادگیری با اطمینان از این که می‌توانم، شناسایی کنم.

این متن با استفاده از ربات ترجمه مقالات علوم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.