وصال دانشور
وصال دانشور
خواندن ۱۰ دقیقه·۵ سال پیش

پیوند فلسفه و یادگیری ماشین - چرایی حل مسئله با داده کاوی

به نام خدا

من به عنوان کسی که حدودا یکساله به صورت جدی حوزه یادگیری ماشین رو دنبال میکنم و شغل مرتبط با این موضوع داشتم . همیشه یک سری سوالاتی برام گنگ و مبهم بوده و بعضا توی مسیر یادگیری دلسرد میشدم.
این اولین پست من درباره تحلیل داده هستش و چون مطالعاتی تو این حوزه داشتم و فعالیت مستمر دارم ، علاوه بر این که دوست دارم چیز هایی که یاد میگیرم رو با بقیه به اشتراک بذارم . یک مشکلی که خودم دارم رو هم حل میکنم، این مشکل مربوط به فراموش کردن چیز هایی که یادگرفتم هستش.
با نوشتن بیشتر تو ذهنم تثبیت میشه و همچنین اگر خواستم مرور بکنم ، متنی که با معیار های ذهنی خودم نوشته شده احتمالا بیشترین کمک رو بهم میکنه و از رفرنس ها بیشتر بهم کمک خواهد کرد ، بنابر این تصمیم گرفتم اولین پست مرتبط با داده رو بنویسم.

برای خالی نبودن عریضه ، از depositphotos دزدیدم :((
برای خالی نبودن عریضه ، از depositphotos دزدیدم :((

چرا باید از چرایی حرف بزنیم؟

بعد از این که تصمیم گرفتم اولین پست مرتبط با داده کاوی رو بنویسم ، دو تا حوزه جذاب تو ذهنم بود و قسمت زیادیش رو هم نوشتم ولی ماجرا این بود که با ابزار هایی که بلد بودم و قاعده هایی که مشخص بود یک کار هائی میکردم و نهایتا یه مدل ترین شده داشتم و تمام.
ولی درباره اینکه چرا و کجا باید استفاده بشه حرف هام مختصر بود و حس کردم قبل از این که با ابزار ها کار بکنم باید بگم چرا ؟چرا؟ چرا؟
مهم تر از این که تکنیک و ابزار رو بلد باشی اینه که بدونی باید باهاش چیکار بکنی و حوزه کاربرد رو توش پیدا بکنی خیلی مهم تر از روش کاره و به نظرم الان داده کاوی چون علاقه مندان زیادی پیداکرده ، مسائلی که میتونن رَوش حل های متفاوت و بهتری داشته باشندبا ابزار داده کاوی حل میشه و شاید روش های به مراتب بهتری برای حل مسئله مورد نظر وجود داشته باشه ولی چون داده کاوی ترنده ، همه میخوان از این ابزار استفاده بکنند.
به قول قدیمیا گره ای که با دست باز میشه رو با دندون باز نمیکنن.
اجازه بدید این مثال مسخره ای که هزاران بار درباره ابزارها شنیدید رو دوباره بازگو بکنم ، چاقو یک ابزاره و یک فردی میتونه باهاش جون یک نفر رو نجات بده و یک فرد دیگه میتونه بهش آسیب برسونه و پیداکردن فلسفه زندگی به شدت مهم تر از بلد بودن ابزار هاست.

جدی نگیرید!!

تمام این چیز هایی که مینویسم ، بیشتر جنبه فلسفی داره و تکنیکال نیست ، بنابر این علاوه بر این که یک سال تجربه تو حوزه به این وسعت کمه برای اظهار نظر کردن و ممکنه نظرم عوض بشه ، این موضوع مهمه که هیچ متری برای درست یا غلط بودن حرف هام وجود نداره و دلیل این نوشته اینه که یک چرایی تو ذهن شما شکل بگیره و برید بیشتر روش تحقیق بکنید . و البته که خیلی خوشحال میشم که نظراتتون رو هم بدونم.

از داده کاوی چرا باید استفاده بکنیم؟

بدون شک داده کاوی ابزار قدرتمندیه که مسائلی که تا به امروز برای ما حل نشدن رو میتونه حل بکنه. دلیلش هم بیگ دیتا و حجم زیادی از داده هایی که وجود دارند هست . ما از داده کاوی استفاده میکنیم که مسائلی که هیچوقت جوابی براشون نداشتیم رو پیدا بکنیم و شاید حتی مسائلی رو مطرح بکنیم که چون تا به حال ابزار حل اون مسئله وجود نداشت به فکرمون خطور نکرده بود . اما این روزها از این ابزار داره برای کاربرد هایی استفاده میشه که مدت زمانی از حل اون مسئله گذشته و میشه گفت بهترین روش حل براش مطرح شده و ما نیاز نداریم که بخوایم چرخ رو از اول اختراع بکنیم .
البته من منظورم تحقیقات دانشگاهی نیست ، بلکه پروژه های صنعتی که هزینه و زمان زیادی روی این موضوع دارند صرف میکنند . تحقیقات دانشگاهی اتفاقا خوبه چون ما قبل از این که هزینه زیادی بکنیم میتونیم بفهمیم کدوم روش بهتره .

نکته دومی که حتما باید بهش توجه بکنیم اینه که یه سود و زیان سرانگشتی قبل از انجام پروژه باید داشته باشیم . به طور مثال :
ما یک مسئله ای داریم ، و اتفاقا بهترین ابزار حل این مسئله داده کاویه بدون هیچ شکی. ولی داده کاوی به ما کمک نمیکنه چون که هزینه هایی که ما برای توسعه پرداخت میکنیم رو جبران نمیکنه و اگه هیچ کاری نکنیم اتفاقا سود بیشتری میکنیم.

من بر خلاف خیلی ها که فکر میکنند داده کاوی به دلیل حجم داده های زیادی که به واسطه انقلاب دیجیتالی به وجود اومده در حال گسترشه حس میکنم بیگ دیتا دلیلش نیست و میل ما انسان ها برای متفاوت بودنه که این ابزار رو داره توسعه میده ، به طور مثال : فرض کنید یک ایمیل از یک فروشگاه اینترنتی دریافت کردید و شما رو با اسم خطاب قرارداده و علایقتون و کالاهایی که قبلا بازدید کردید رو هم براتون لیست کرده ، قطعا اگر شما ندونید این کارها توسط کامپیوتر ها انجام میشه ، میزان هیجان دریافت این ایمیل خیلی بیشتر خواهد بود و دلیلش هم این میل ذاتیه انسانه که دوست داره شناخته بشه و با بقیه فرق بکنه.
اگر ما با کل انسان های این کره خاکی صحبت بکنیم و بهشون بگیم "من میدونم ; تو با بقیه فرق داری" احتمالا 70 درصدشون قصه دلشون باز میشه و شروع میکنند به گفتن اینکه ، "آره هیچکس منو درک نمیکنه و ..." که خب این مسئله غیر ممکنه ولی میل به متفاوت بودن باعث میشه انسان ها حس بکنند با بقیه فرق دارند.

قطعا یه بخشی از رشد داده کاوی مخصوصا توی بیزینس هایی که از پایه هوش مصنوعی نیستند مربوط میشه به ایجاد حس تمایز کردن توی مشتریاشون ، مثل مغازه داری که وارد مغازش میشید و شما رو به اسم میشناسه و شما هم حس راحتی بیشتری باهاش میکنید و بیشتر خرید هاتون رو از اون میکنید. اگه این اتفاق تو مارکت های انلاین هم بیوفته یعنی داده کاوی تونسته موفق بشه.(مثل سیستم های ریکامندر)

مثال بزنیم مبحث جا بیوفته :))

من میخوام 2 تا مثال کوتاه بزنم که درک کنید که از چی نگرانم و چرا حس میکنم داره در مورد داده کاوی اغراق میشه. و این اغراق شدن نه تنها به متخصصین اون حوزه لطمه وارد میکنه بلکه باعث میشه حوزه های کاربردی واقعی اون حوزه هم زیر سوال بره و معتقدم همیشه واقع بینی بیشترین کمک رو میکنه.

مثال اول

یک کسب و کار 10 نفره رو فرض کنید که خرده فروشی آنلاین هستش و نسبتا هم موفقه و سود خالص 50 میلیونی در ماه داره با توجه به تبلیغاتی که شنیده ، حس میکنه که داده کاوی میتونه بهش کمک بکنه. و یک متخصص داده کاوی رو استخدام میکنه . من حس میکنم این کار غلطه به دو دلیل :
دلیل اول : قطعا یک تیم داده کاوی 5 نفره میتونه 10 برابر یک فرد متخصص بازدهی داشته باشه و کار تیمی به شدت توش پر رنگه و از این بابت تنها بودن تو فرایند کاوی دشواره. واقعا سخته که یه ادم بخواد تمام ابعاد اون کسب و کار رو بخواد به شکل یک مدل داده مبنا در بیاره و شاید مدیر مجموعه که از اول اون مجموعه رو شکل داده ، بتونه بدون نیاز به مفاهیم داده کاوی و تنها با ابزار های مارکتینگ این رشد رو ایجاد بکنه و برون سپاری کردن مسائل داده کاوی توی مجموعه هایی که به این شکل هستند و هسته اصلی کسب و کارشون مرتبط با داده کاوی و هوش مصنوعی نیستش و نسبتا کوچک هستند بهترین راه حل هستش که اتفاقا گروه سکان هم داره یک پلتفرم برای این شرکت ها ایجاد میکنه که یک بازی برد برد رو ایجاد میکنه.

دلیل دوم : حتی اگر فرض بکنیم اون متخصص داده کاوی میتونه سود خالص 50 میلیونی ما رو به 70 میلیون افزایش بده باز هم باید توجه بکنیم که متخصص های داده کاوی حقوق های بالائی دریافت میکنند و ریسک بالائی برای کسب و کار داره.

مثال دوم

یک کارخونه که کارش تولید بلور و شیشه هستش و تعداد زیادی کارمند داره و قطعا سود خالص ماهانه اش تو اوردر چند ده میلیارده و شاید فکر کنید داشتن حتی یک تیم متخصص داده کاوی براش هزینه ای نداشته باشه و بودنش بهتر از نبودنشه اما به نظر من اگه بدون هدف انجام بشه ، اتفاقا نتایج بدی داره.

نتیجه بدش اینه که مجبوره به آدم هایی که دقیقا نمیدونند دارند چیکار میکنند حقوق های بالایی بده و حسادت بقیه اعضای مجموعه ، خسارت بدی میزنه. و ما بقی مجموعه شاید وقتی همچنین چیزی رو ببیند انگیزشون رو از دست بدند و کارشون رو خوب انجام بدند.

راه درستش اینه که بیاد چالش ها و مشکلاتش رو مطرح بکنه و یک چلنج بزاره ، که من همچنین مشکلی دارم و هر کی حل بکنه درصدی از سود انجام این کار رو بهش میدیم. اینجوری هم انگیزه افراد حفظ میشه و هم اینکه میدونن دقیقا دارند چیکار میکنند . بی هدفی و تعریف نکردن دقیق مسئله آفت بزرگیه .
دقیقا مثل کاری که اخیرا datadays شریف انجام داد ، مسئله تپسل مطرح شد و متخصص ها اومدند سعی کردند مشکل رو حل بکنند.

سخن پایانی

همه چیزهایی که نوشتم بدیهیه ولی متاسفانه همین چیزهای واضح و بدیهی به هزار و یک دلیل غلط انجام میشه.

من توی پست های بعدی خیلی تکنیکالی روش های داده کاوی رو توضیح میدم و سعی میکنم حوزه های کاربردی که جذابه رو مطرح بکنم و با یک دیتاست پابلیک یک مدل ترین بکنم. خودم هم مباحث فنی رو بیشتر دوست دارم ولی به نظرم این پست با زبان قاصر من از همه ی اون پست ها مهم تره.قضاوت با خودتون.

ممنون که تا به اینجا خوندید ، شاد باشید.



داده کاویdata miningmachine learningphilsophyفلسفه
دانشجوی ارشد بهینه سازی، گیک ، فعال در حوزه تحلیل داده ، عاشق دنیای کامپیوتر ها
شاید از این پست‌ها خوشتان بیاید