علم داده یا دیتاساینس چیست؟(نگاهی جامع به علم داده)

تعاریف زیادی از علم داده وجود داره. این تعاریف تا اونجایی جالب میشه که هر رشته‌ای که توی این فیلد دخیل هست دوست داره که اون رو به نفع خودش تموم کنه. مثلا یه استادی داشتیم که می‌گفت علم داده همون آماره و باید آمار رو تغییر نام بدیم به علم داده :) واقعیت اینه که علم داده فقط مختص به یک رشته خاص نیست و از ترکیب چند رشته بوجود اومده که توی این مطلب میخوام به صورت جامع بهش بپردازم.

نگاهی مختصر و جامع به زمینه های دیتاساینس
نگاهی مختصر و جامع به زمینه های دیتاساینس


تعریف علم داده

علم داده، دانشی میان ‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه داده هاست که از ترکیب مباحث مختلفی به وجود اومده تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و…

هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور هست.

شاید براتون سوال باشه محصولات و خدمات داده محور چی هستن؟ خب این بحث اینجا نمی‌گنجه و احتمالا توی یه مطلب دیگه بهش بپردازم؛ اما اگه دوست دارید با تعدادی ازین خدمات آشنا بشید می‌تونید یه سر به سایت ارزیاب بزنید.

به طور کلی مهمترین رشته هایی که علم داده رو تشکیل میدن حوزه های "علوم کامپیوتر"، "ریاضیات و آمار" و "دانش های حوزه کسب و کار" هستند. قبل از پرداختن به علم داده بهتره یک نگاهی به دانش ­های میان رشته ای در این سه حوزه داشته باشیم.

علم داده یک دانش میان رشته‌ای هست.
علم داده یک دانش میان رشته‌ای هست.


پیشاپیش می‌گم در ادامه ممکنه از اصطلاح های تخصصی تری استفاده بشه اما مطلب رو سعی کردم طوری بنویسم که از هر سه فیلد درگیر در علم داده دید جامعی به دست بیاد.

علوم کامپیوتر در علم داده

اکثر الگوریتم هایی که الگو شناسی داده ها رو انجام می‌دهند؛ راه حل های بسته و ساده ندارند. برای مثال رگرسیون خطی یک روش مدل سازی ساده است که به سادگی می‌توان از ویژگی های هندسی خطی استفاده کرد تا معادلات نرمال را بدست آورد و در پایان به یک فرمول نهایی دست یافت که داده ها را مدل سازی می‌کند. اما برای به کارگیری روش های یادگیری ماشین پیشرفته مانند Kernelized SVM، درخت تصمیم و شبکه عصبی بهتره از روش های بهینه سازی عددی مانند الگوریتم های گرادیان کاهشی استفاده بشه. یادگیری ماشین در مقیاس بزرگ نیاز به یک تجربه برنامه نویسی قوی مانند موازی سازی داده ها، محاسبات توزیع شده و مدیریت حافظه داره. یک مثال می‌تونه بردار سازی داده ها باشه. یک روش ساده برای آموزش یک شبکه عصبی نوشتن یک دسته تو در تو حلقه ها برای به روز کردن عناصر واحد در ماتریس وزن هست. خب در دنیای ریاضیات افلاطونی، این امر در تئوری برای دستیابی به یک طبقه بندی قوی برای یادگیری ماشین کافیه، اما در عمل این امر می‌تونه ماه ها یا سال ها طول بکشه. بنابراین مهارت و تجربه برنامه نویسی قوی می‌تونه در علم داده بسیار کمک کننده باشه.

ریاضیات و آمار در علم داده

یادگیری ماشینی به تنهایی مفهومی است که در اون عوامل و الگوریتم ها از محیط یا داده های اون یاد می‌گیرند تا در یک وظیفه تعیین شده بهتر عمل کنند. این نکته که الگوریتم ها چگونه یاد می‌گیرند تقریبا به حوزه "آمار" برمی‌گردد. برخی از الگوریتم های یادگیری ماشین (مانند تجزیه و تحلیل تفکیک کننده خطی یا چهارگانه) اساساً مدل های بیزی هستند که در اینجا برخی از ساختار توزیع پارامتری داده ها فرض می‌شوند و پارامترها را به صورت الگوریتمی به روز می‌کنند. از دیگر طبقه بندی کننده ها می‌توان به شبکه های عصبی اشاره کرد که در آن بردار های ارزش گذاری شده توسط مجموعه ای از محاسبات به فضای احتمالاتی (عددی بین 0 تا 1) نگاشت می‌شوند.

دانش حوزه کسب و کار در علم داده

برای حل مساله ابتدا باید پی‌برد که مساله چیست. یک دانشمند علم داده باید سه جنبه از دانش حوزه کسب و کار که به یکدیگر مرتبطه اما قابل تفکیک هست رو در ذهنش به خاطر داشته باشه. این سه حوزه عبارتند از:

1- منبع مشکلاتی که کسب و کار سعی در حل کردن اون داره.

2- مجموعه اطلاعات و تخصص هایی که کسب و کار برای حل کردن مسائل اصلی به اون نیاز داره.

3- مکانیزم دقیق جمع آوری داده ها برای حل مسائل اصلی رو به طور دقیق بدونه.

بنابراین برای به کارگیری علم داده ها در هر زمینه ابتدا باید با آن زمینه و فرایند ها و روند ها آشنایی کسب کرد. این جایی است که به "دانش حوزه کسب و کار" یا "مدیریت" نیاز می‌شه.

تلفیق سه حوزه علوم کامپیوتر، آمار و ریاضیات و دانش کسب و کار

هنگامی که سه عنصر شرح داده شده باهم ترکیب می‌شوند، تیمی بوجود میاد که بسیار راحت می‌تونه مشکل رو شناسایی کند و راه حل ارائه بده؛ «چه چیزی در معرض خطر هست؟» ، «از چه داده هایی باید استفاده بشه؟»، «چه مدل هایی مناسبه؟»، «چگونه به ماشین آموزش داده بشه؟» و در آخر نحوه تولید راه حل بررسی می‌شه.

در نهایت با پاسخ به این سوالات مجموعه راه حل هایی بوجود میاد که می‌تونه به سولات کسب و کار پاسخ بده و به حل مسائلش کمک کنه و باعث کاهش هزینه و افزایش سود برای اون کسب و کار بشه.


در پایان این بحث بهتون پیشنهاد می‌کنم مطلب «دانشمند علم داده یا دیتاساینتیست کیست و چه می‌کند؟» رو حتما مطالعه کنید.