آمار شهید بهشتی خوندم. حوزه فعالیتم دیتاساینسه. عضو کوچیکی از خانوادهی شتابدهنده سنجیده و شرکت علم داده ارزیاب ام. پروفایل من در ارزیاب: https://arz-yab.com/our-teams/personalpage.php?uid=2
علم داده یا دیتاساینس چیست؟(نگاهی جامع به علم داده)
تعاریف زیادی از علم داده وجود داره. این تعاریف تا اونجایی جالب میشه که هر رشتهای که توی این فیلد دخیل هست دوست داره که اون رو به نفع خودش تموم کنه. مثلا یه استادی داشتیم که میگفت علم داده همون آماره و باید آمار رو تغییر نام بدیم به علم داده :) واقعیت اینه که علم داده فقط مختص به یک رشته خاص نیست و از ترکیب چند رشته بوجود اومده که توی این مطلب میخوام به صورت جامع بهش بپردازم.
تعریف علم داده
علم داده، دانشی میان رشتهای پیرامون استخراج دانش و آگاهی از مجموعه داده هاست که از ترکیب مباحث مختلفی به وجود اومده تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و…
هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور هست.
شاید براتون سوال باشه محصولات و خدمات داده محور چی هستن؟ خب این بحث اینجا نمیگنجه و احتمالا توی یه مطلب دیگه بهش بپردازم؛ اما اگه دوست دارید با تعدادی ازین خدمات آشنا بشید میتونید یه سر به سایت ارزیاب بزنید.
به طور کلی مهمترین رشته هایی که علم داده رو تشکیل میدن حوزه های "علوم کامپیوتر"، "ریاضیات و آمار" و "دانش های حوزه کسب و کار" هستند. قبل از پرداختن به علم داده بهتره یک نگاهی به دانش های میان رشته ای در این سه حوزه داشته باشیم.
پیشاپیش میگم در ادامه ممکنه از اصطلاح های تخصصی تری استفاده بشه اما مطلب رو سعی کردم طوری بنویسم که از هر سه فیلد درگیر در علم داده دید جامعی به دست بیاد.
علوم کامپیوتر در علم داده
اکثر الگوریتم هایی که الگو شناسی داده ها رو انجام میدهند؛ راه حل های بسته و ساده ندارند. برای مثال رگرسیون خطی یک روش مدل سازی ساده است که به سادگی میتوان از ویژگی های هندسی خطی استفاده کرد تا معادلات نرمال را بدست آورد و در پایان به یک فرمول نهایی دست یافت که داده ها را مدل سازی میکند. اما برای به کارگیری روش های یادگیری ماشین پیشرفته مانند Kernelized SVM، درخت تصمیم و شبکه عصبی بهتره از روش های بهینه سازی عددی مانند الگوریتم های گرادیان کاهشی استفاده بشه. یادگیری ماشین در مقیاس بزرگ نیاز به یک تجربه برنامه نویسی قوی مانند موازی سازی داده ها، محاسبات توزیع شده و مدیریت حافظه داره. یک مثال میتونه بردار سازی داده ها باشه. یک روش ساده برای آموزش یک شبکه عصبی نوشتن یک دسته تو در تو حلقه ها برای به روز کردن عناصر واحد در ماتریس وزن هست. خب در دنیای ریاضیات افلاطونی، این امر در تئوری برای دستیابی به یک طبقه بندی قوی برای یادگیری ماشین کافیه، اما در عمل این امر میتونه ماه ها یا سال ها طول بکشه. بنابراین مهارت و تجربه برنامه نویسی قوی میتونه در علم داده بسیار کمک کننده باشه.
ریاضیات و آمار در علم داده
یادگیری ماشینی به تنهایی مفهومی است که در اون عوامل و الگوریتم ها از محیط یا داده های اون یاد میگیرند تا در یک وظیفه تعیین شده بهتر عمل کنند. این نکته که الگوریتم ها چگونه یاد میگیرند تقریبا به حوزه "آمار" برمیگردد. برخی از الگوریتم های یادگیری ماشین (مانند تجزیه و تحلیل تفکیک کننده خطی یا چهارگانه) اساساً مدل های بیزی هستند که در اینجا برخی از ساختار توزیع پارامتری داده ها فرض میشوند و پارامترها را به صورت الگوریتمی به روز میکنند. از دیگر طبقه بندی کننده ها میتوان به شبکه های عصبی اشاره کرد که در آن بردار های ارزش گذاری شده توسط مجموعه ای از محاسبات به فضای احتمالاتی (عددی بین 0 تا 1) نگاشت میشوند.
دانش حوزه کسب و کار در علم داده
برای حل مساله ابتدا باید پیبرد که مساله چیست. یک دانشمند علم داده باید سه جنبه از دانش حوزه کسب و کار که به یکدیگر مرتبطه اما قابل تفکیک هست رو در ذهنش به خاطر داشته باشه. این سه حوزه عبارتند از:
1- منبع مشکلاتی که کسب و کار سعی در حل کردن اون داره.
2- مجموعه اطلاعات و تخصص هایی که کسب و کار برای حل کردن مسائل اصلی به اون نیاز داره.
3- مکانیزم دقیق جمع آوری داده ها برای حل مسائل اصلی رو به طور دقیق بدونه.
بنابراین برای به کارگیری علم داده ها در هر زمینه ابتدا باید با آن زمینه و فرایند ها و روند ها آشنایی کسب کرد. این جایی است که به "دانش حوزه کسب و کار" یا "مدیریت" نیاز میشه.
تلفیق سه حوزه علوم کامپیوتر، آمار و ریاضیات و دانش کسب و کار
هنگامی که سه عنصر شرح داده شده باهم ترکیب میشوند، تیمی بوجود میاد که بسیار راحت میتونه مشکل رو شناسایی کند و راه حل ارائه بده؛ «چه چیزی در معرض خطر هست؟» ، «از چه داده هایی باید استفاده بشه؟»، «چه مدل هایی مناسبه؟»، «چگونه به ماشین آموزش داده بشه؟» و در آخر نحوه تولید راه حل بررسی میشه.
در نهایت با پاسخ به این سوالات مجموعه راه حل هایی بوجود میاد که میتونه به سولات کسب و کار پاسخ بده و به حل مسائلش کمک کنه و باعث کاهش هزینه و افزایش سود برای اون کسب و کار بشه.
در پایان این بحث بهتون پیشنهاد میکنم مطلب «دانشمند علم داده یا دیتاساینتیست کیست و چه میکند؟» رو حتما مطالعه کنید.
مطلبی دیگر از این انتشارات
معرفی روش های کاهش ابعاد در تحلیل داده و یادگیری ماشین
مطلبی دیگر از این انتشارات
روش شش سیگما در مدیریت داده محور کسب و کار ها
مطلبی دیگر از این انتشارات
جنگو برای تازه کار ها - قسمت اول: راه اندازی