میخوام دیتا ساینتیست بشم چکار کنم؟

این یه مغزه دیگه مثلا:)
این یه مغزه دیگه مثلا:)

خیلی ها، خیلی زیاد، از من در این باره میپرسن که میخوام دیتا ساینتیست بشم چکار کنم؟

واقعیت اینه که راهنماهای زیادی برای دیتا ساینتیست شدن هست که همشون هم معمولا سعی در این دارن که همه چیز رو تو این حوزه، سخت و نیازمند به دانش پیشین گسترده معرفی کنن. ولی واقعیت این هست که این کار هم مثل همه حوزه های دیگه نیاز به پشتکار و علاقه داره. اگر دارید بقیه مطلب رو همراه من باشید.

من لیستی از سوالات و مواد لازمی که بنظرم خوب میاد رو میارم. طبیعی هست که اپدیت اش میکنم . چیزای بیشتر و بهتری اگر دیدم بهش اضافه میکنم.

من برنامه نویس نیستم چه زبانی رو باید بدونم؟ زبان های R و Python بهترین و سریعترین هستن. بشخصه پایتون رو معرفی میکنم به همه چون بنظرم راحت تر راه افتادم و خب یه موقع بخواهید سرویس جدی ارائه بدید واقعا سر تر هست نسبت به R. از طرفی R مقداری هلو بپر تو گلو تر هست و این باعث میشه خیلی عمیق یاد نگیرید موارد اولیه رو. لازم هست بدونین که شما نیاز نیست خیلی برنامه نویس خفنی باشید برای اینکه بتونید کار رو شروع کنین. صرفا چهارتا چیز ساده رو یاد بگیرید کافی هست. شاید دوره جادی برای پایتون استارت خوبی باشه و باید بدونید همون دوره مقدماتی همه نیاز شما رو به طور کامل پوشش میده و تو مباحث تخصصی هم که خدا پدر استک و گوگل رو بیامرزه. مورد داشتیم من یه سرویس رو از صفر تا صد با گوگل نوشتم دادم دست مشتری خیلی هم راضی بودن :))

چقدر باید زمان بذارم؟ این رو هرکسی از من میپرسه حس بدی رو بهم منتقل میکنه. بنظرم حوزه دیتا رو اگر علاقه ندارید به سمتش نرید. واقعا چیزی گیرتون نمیاد غیر از چهار تا عبارت قلمبه سلمبه بیمصرف که دیگه الان همه بلدن. اگر هم علاقه دارید که دیگه هرچی در توان تون هست بذارید. من زن و بچه دارم. کار هم میکنم تا حدی که کمرم اجازه بده و با این حال همچنان روزی ۳-۵ ساعت مطالعه میکنم. و مایلم به اطلاعتون برسونم با این نرخی که من وقت گذاشتم یک سال طول کشید که به جایی برسم که بتونم مساله واقعی حل کنم و سرویس رو به پروداکشن برسونم. این رو هم به خاطر داشته باشید که من قبل تر ها برنامه نویس محاسباتی بودم و خب با اعداد خیلی راحتم و شاید شما مجبور باشید وقت بیشتری بذارید یا… دیگه خودتون میدونین. دیتا عشقِ عشق? این شما و علاقه مندی تون هست که مشخص میکنه کی به نتیجه میرسید. من خیلی دور باطل زدم برای اینکه به نتیجه برسم و شما میتونین من رو آینه عبرت قرار بدین و راههای بهتری رو پیدا کنین.

ریاضیات چی میخواد؟ این رو معمولا کسی از من نمیپرسه. یه سری سایتها هم ازین چرندیات که بدون دونستن ریاضی دیتاساینتیست بشوید و بلا بلا بلا رو زیاد میگن. راستش شما به مقداری جبر خطی نیاز دارید. طبیعتا اشنایی ابتدایی با حساب دیفرانسیل هم گاهی کمک میکنه ولی جبر خطی از همه مهمتر هست. برای اشنایی با جبر خطی بنظرم بخش های اغازین کتاب دیپ لرنینگ شاهکار Ian Goodfellow  رو از دست ندید.کلا این کتاب کل ریاضیات رو پوشش میده. اصلا نترسید. کلا خیلی ساده است موضوع. اسمش یه جوری عجیب غریب هست.

یه زبونی رو بلدم و از ریاضیات ابتدایی هم سر درمیارم و اون مقاله رو هم خوندم حالا چکار کنم؟ خب. رسیدیم به جایی که خیلی مهم هست. اینجا جایی هست که به هیچ عنوان نباید اشتباه مهلک من رو تکرار کنین. من اساسا تا یه موقعی بشدت مطالعه میکردم و انقدر مطالب مختلف رو خونده بودم که اساسا تو حرف زدن حتی دانشجوهای ارشد هوش مصنوعی هم کم میاوردن جلوم. ولی در عمل، هیچی :/ شما نباید به هیچ وجه دنبال این باشید که به روز باشید و همه چی رو تا تهش بدونین و … شما باید تا میتونید toy example حل کنین. این باعث میشه که هم دستتون روون بشه تو ماجرا. هم اینکه مسائل واقعی رو لمس کنین. کنارش هم ۴ تا چیز یاد بگیرید و دقیقا متوجه میشید که حوزه مورد علاقه تون کجاست؟

این دیپ لرنینگ چیه؟ توصیه برادرانه من به شما این هست که فعلا بیخیال این فیلد بشید.این که چرا بیخیال بشید رو در یه مطلب دیگه بهش میپردازم. فعلا همینقدر بدونین که این بیشتر یه هایپ هست بنوعی و اصلا اونطوری که فکرشو بکنین کاربرد جدی نداره تو صنایع و هنوز بیشتر تو حوزه ریسرچ ترند هست نه تو صنعت. الان ۴ تا مثال نقض برام میارین. اونا رو میدونم. ولی بیش از نود درصد مسائل فعلی حوزه دیتا رو همین روشهای مرسوم ماشین لرنینگ حل میکنن پس بخاطر اون ده درصد کافه رو اتیش نزنین لطفا.

منابع خوب چیا است؟ اول از همه بهترین مطلب برای شروع به زبان فارسی قطعا مطلب سایتzerotohero.ir هست. این مطلب یه دوره خوب هست که ترجمه ای از یه مقاله انگلیسی هست. طبیعتا توصیه میکنم مقاله اصلی که خودش چندین پارت هست رو بخونین. ولی برای شروع همین مطلب خیلی خوب هست.این مطلب به شما یاد نمیده که فلان مساله رو چجوری حل کنین ولی بهتون این دید رو میده که لااقل این کلمه یادگیری/لرنینگ یعنی چی اصلا؟! ممکن هست همون اول دل شما رو بزنه و دیگه نخواهید ادامه بدید یا اینکه علاقمند بشید و خیلی هم پیگیری کنین. من یکی دوتا سایت رو چک میکنم معمولا روزانه. برخی ها شون رو هم مشترک هستم و همه زیر مجموعه مدیوم هستن. اگر خواستید باید لیست همه شون رو دربیارم ولی بطور کلی این  سایت رو از دست ندید.  https://towardsdatascience.com/