علم داده چیست ؟

با ورود جهان به عصر کلان داده ( Big Data) نیاز به ذخیره سازی داده افزایش یافت. این بزرگترین چالش برای صنایع و سازمان ها تا سال ۲۰۱۰ بود , تمرکز برای حل این مشکل و ایجاد چارچوبی برای ذخیر سازی داده بود, اکنون با وجود هادوپ و سایر ابزار های دیگر این مشکل حل شده است و حالا تمرکز به پردازش داده تغییر یافته است.

اینجا دیتاساینتیست یک راز مخفی است, تمام ایده هایی که در فیلم های هالیوودی می بینید میتواند به واقعیت تبدیل شوند.


علم آینده علم هوش مصنوعی است, بنابراین با درک این مسأله و اینکه چطور این علم میتواند به کسب و کار شما کمک کند مقاله را آغاز می کنیم.


در اولین قدم باید بفهمیم که چرا ما به علم داده نیاز داریم ؟

به طور سنتی در قدیم ما داده هایی در اختیار داشتیم که عمدتا از نظر ساختاری کوچک بودند که میتوانستیم با ابزار های ( BI (business intelligence آن ها را آنالیز کرده و اطلاعاتی استخراج کنیم. بر خلاف داده های موجود در سیستم های سنتی که عمدتا ساختار یافته بودند, امروزه اکثر داده ها ساختار یافته یا نیمه ساختار یافته نیستند. این نمودار نشان میدهد که ٪۸۰ درصد داده ها بدون ساختار بودند و این روند در آینده بیشتر میشود

این داده ها از منابع مختلفی مانند پرونده های مالی, متنی , فرم ها , حسگر ها و ابزارها تولید میشوند که ابزار های BI قادر به پردازش این حجم از تنوع داده نیستند به همین دلیل برای پردازش و تجزیه و تحلیل و ترسیم بینش های معنادار به ابزار ها و الگوریتم های پیشرفته تری نیاز داریم .

این تنها دلیل محبوبیت علوم داده نیست. بیایید با دیدگاه عمیق تری داشته باشیم .

چگونه علوم داده (Data Science) میتواند در حوزه های مختلف استفاده میشود ؟

چگونه میتوانید نیازمندی های دقیق مشتریان خود را از داده های موجود مانند تاریخ خرید گذشته مشتری , سن , درآمد و ... را درک کنید بدون اینکه قبلا این داده ها را در اختیار داشته باشید ؟

اما اکنون با وجود حجم و تنوع داده ها میتوان مدل ها را به صورت موثر تر آموزش داد و محصول را با دقت و کیفیت بیشتری به مشتریان خود توصیه کنید . این شگفت آور نیست ؟ این کار میتواند در به وجود آوردن مشاغل بیشتر در سازمان ها شود.

بیایید یک سناریوی متفاوت را برای درک نقش علم داده در تصمیم گیری در نظر بگیریم. مثلا اگر ماشین هوشمندی داشته باشیم که شما را خانه منتقل کند چطور ؟

برای نمونه اتومبیل های خودران برای ایجاد نقشه ای از محیط اطراف , داده های زنده را از سنسور , رادار , دوربین و لیزرها جمع آوری می کند. بر اساس این داده ها تصمیماتی مانند زمان سرعت بخشیدن , زمان دستیابی و اینکه کجا از الگوریتم های یادگیری ماشینی استفاده کند را به طور منظم یاد میگیرد .


حال بیایید ببینیم چگونه میتوان از علم داده برای پیش بینی آب و هوا استفاده کرد ؟

داده ها از کشتی ها , هواپیما ها و ماهواره ها میتوان جمع آوری کرد و با تجزیه و تحلیل این داده ها میتوان به نتایجی رسید . برای ساخت مدل از این آب و هوا نه تنها ما میتوانیم آب و هوا را پیش بینی کنیم بلکه در وقوع هر گونه بلای طبیعی نیز میتوان پیش بینی انجام دهیم و بسیاری از زندگی ها را نجات داد.

بیایید به این اینفوگرافیک زیر نگاهی بیاندازیم تا همه ی دامنه هایی که علم داده میتواند به آن ها کمک کند را ببینیم.

همانطور که در عکس مشخص است ما میتوانیم به صنایع مختلفی مانند حوزه سلامت - امنیت سایبری - شبکه های اجتماعی , گردشگری و پیش بینی و مدیریت ریسک , پیش بینی جرایم و ... وارد شویم .


اکنون که شما نیاز به علوم داده را درک کردید. اجازه دهید درک کنیم علم داده چیست ؟

این روز ها استفاده از علم داده متداول است و هر کسی سعی میکند خود را در این زمینه متخصص نشان بدهد. ولی واقعا به چه معناست ؟ برای تبدیل شدن به یک متخصص علوم داده به چه چیزی نیاز دارید ؟ فرق آن با BI چیست ؟


ابتدا باید بفهمیم علم داده چیست ؟

علم داده ترکیبی از ابزارها , الگوریتم ها و اصول یادگیری ماشین , با هدف پیدا کردن الگوهای پنهان از داده های خام است . سوالی که پیش می آید این است که این کار چه تفاوتی با آنچه آماردان ها (آماری ها) انجام می دهند دارد ؟

پاسخ : در تفاوت بین توضیح و بینش نهفته است

همانطور که در تصویر بالا مشاهده میکنید یک دیتا آنالیز با پردازش تاریخچه داده ها و اینکه چه اتفاقی می افتد توضیح میدهد . از طرف دیگر یک دیتاساینتیست نه تنها تجزیه تحلیل اکتشافی را برای برای کشف بینش از آن انجام میدهد بلکه از الگوریتم های مختلف یادگیری ماشین برای شناسایی اتفاقات آینده نیز استفاده میکند . یک دیتاساینتیست ( دانشمند علوم داده ) از زوایای مختلفی به داده ها نگاه میکند . گاهی اوقات از زوایای که قبلا مشخص نیست .

بنابراین دا نش داده در درجه اول برای تصمیم گیری و پیش بینی از تجزیه و تحلیل برجسته و تجزیه و تحلیل تجربی(پیش بینی به علاوه تصمیم گیری ) ماشین استفاده کرد .

تجزیه و تحلیل پیش بینی :

اگر میخواهید مدلی داشته باشید بتواند یک رویداد خاصی را در آینده پیش بینی کند باید تحلیل برجسته را اعمال کنید مثلا بگویید اگر به صورت اعتباری به مشتریان وام دهید احتمالا مشتریانی را که وام های اعتباری آینده را به موقع پرداخت می کنند مورد توجه شما قرار میگیرد . در این جا میتوانید مدلی بسازید که بتواند تجزیه و تحلیل پیش بینی کننده در مورد تاریخ پرداخت مشتری را انجام دهد و پیش بینی کند که آیا به موقع پرداخت انجام خواهد شد یا خیر ؟


تجزیه و تحلیل تجربی :

اگر میخواهید یک الگو یا هوش در تصمیم گیری های خود با امکان اصلاح آن با پارامتر های داینامیکی را داشته باشید. مطمئنا برای آن نیاز به تجزیه و تحلیل تجربی دارید. این زمینه نسبتا جدید در مورد مشاوره است . به عبارت دیگر نه تنها پیش بینی میکنید بلکه طیف وسیعی از اقدامات تجویز شده و نتایج مرتبط را پیشنهاد میکند. به طور مثال اتومبیل خودران گوگل که در موردش بحث کردیم از داده های جمع آوری شده توسط وسایل نقلیه میتوان برای آموزش اتومبیل رانندگی استفاده کرد شما میتوانید الگوریتم های موجود در این داده را اجرا کنید تا به هوش این کار برسد با این کار ماشین قادر خواهد بود که چه زمانی فرمان را بچرخاند یا سرعت کم و زیاد شود.

یادگیری ماشین برای پیش بینی

مثلا شما داده هایی از مبادله ی یک شرکت مالی را دارید و برای تعیین روند آینده نیاز به ساختن مدل دارید. الگوریتم های یادگیری ماشین بهترین شرط بندی هستند این الگوی یادگیری نظارت شده است که زیرا شما از قبل داده هایی دارید که میتوانید ماشین خود را آموزش دهید . به عنوان مثال کشف تقلب با استفاده از سابقه تاریخی خرید های تقلب قابل آموزش است .

بیایید ببینیم رویکرد های توضیح داده شده برای تجزیه و تحلیل داده و علوم داده متفاوت است.

دیتا آنالیز برای تجزیه و تخلیل داده و دیتاساینس علاوه بر این ها شامل پیش بینی و تجزیه و تحلیل توصیفی است .

تفاوت میان Data Science و BI چیست ؟

کار BI: اساسا داده های قبلی را برای یافتن نظارت و دید کلی برای توصیف روند کسب و کار تجزیه و تحلیل میکند. BI این امکان را به شما میدهد تا از منابع خارجی و داخلی استفاده کنید و آن را آماده کنید. مانند ساخت داشبوردو پاسخ به سوالاتی مانند تحلیل درآمد سه ماهه آینده یا مشکل شغلی. BI میتواند تاثیر برخی از وقایع خاص آینده نزدیک را ارزیابی کند.

علوم داده : یک رویکرد آینده نگرانه است روش اکتشافی با محوریت تجزیه و تحلیل داده های گذشته و پیش بینی نتایج آینده با هدف تصمیم گیری آگاهانه این پاسخ به سوالات باز در وقایع آینده چگونه است ؟


چرخه حیات علم داده

چرخه حیات علم داده
چرخه حیات علم داده

  • مرحله 1 - کشف : در این مرحله تیم پروژه پس از آشنایی با حوزه کسب و کار و همچنین سوابق کارهای انجام شده و این که تا چه میزان می توان از تجارب گذشته درس گرفت ، منابع در دسترس به منظور حمایت از پروژه در حوزه های مختلفی نظیر افراد ، فناوری ، زمان و داده  را شناسایی می نماید . یکی از مهمترین فعالیت های این مرحله شکست یک مساله کسب و کار به اجزاء کوچکتر است بگونه ای که بتوان ضمن حفظ یکپارچگی و انسجام ، با دنبال نمودن مجموعه ای از مراحل متوالی به سرانجام نهایی رسید .
  • مرحله 2 – آماده سازی داده : مرحله دوم نیازمند وجود یک محیط شبیه ساز و یا اصطلاحا Sandbox است تا تیم داده بتوانند با داده کار کنند و تجزیه و تحلیل را در مدت زمان انجام پروژه انجام دهند . تیم پروژه با انجام فرآیندهای مختلفی نظیر استخراج ، بارگذای ، تبدیل یا همان ELT معروف و یا استخراج ، تبدیل و بارگذاری یا همان ETL عملیات انتقال داده درون sandbox را انجام می دهند . به مجموعه فرآیندهای ETL و ELT بطور مختصر ETLT نیز گفته می شود .با انتقال داده به کمک فرآیندهای ETLT  امکان کار با داده و تجزیه و تحلیل آن فراهم می گردد تا بستر مناسبی جهت آشنایی عمیق تر با ابعاد مختلف داده برای تیم پروژه فراهم گردد .
  • مرحله 3 – برنامه ریزی مدل : در این مرحله برنامه ریزی مدل انجام خواهد شد و تیم پروژه متدها ، تکنیک ها و جریان های کاری مورد نیاز را تعیین می کند . تیم داده با بررسی روابط بین متغیرها ، متغیرهای کلیدی نهایی که دارای بیش ترین تناسب با مدل هستند را انتخاب می نمایند .
  • مرحله 4 – ایجاد مدل : در این مرحله تیم پروژه مجموعه های داده را برای تست ، آموزش و اهداف تولیدی ایجاد می نماید . علاوه بر این ،  تیم داده مدل ها را بر اساس کار انجام شده ایجاد و اجراء می نماید ( مدل هایی که در مرحله سوم ، برنامه ریزی آنها انجام شده است ) . تیم پروژه بررسی لازم در خصوص وجود ابزارهای لازم جهت اجرای مدل را انجام خواهد داد. همچنین ، بررسی این موضوع در دستور کار قرار خواهد گرفت که آیا برای اجرای مدل ها و جریان های کاری به یک محیط مطمئن تر نیاز است ( مثلا استفاده از سخت افزارهای قوی تر  ، پردازش موازی ) .
  • مرحله 5 – ارتباط نتایج  : در این مرحله ، تیم پروژه در تعامل با ذینفعان اصلی ، بررسی موفقیت آمیز بودن و یا ناکامی نتایج پروژه را بر اساس شاخص های تعیین شده در مرحله اول در دستور کار قرار می دهد . همچنین ، تیم پروژه یافته های جدید را شناسایی  و ارزیابی کمی ارزش تولیدی برای کسب و کار را دقیقا مشخص می نماید و آنها را به صورت شفاف و مستند وعملیاتی در اختیار ذینفعان اصلی قرار می دهد .
  • مرحله 6 – اجراء : در این مرحله تیم پروژه  گزارشات نهایی ، کد و مستندات فنی را ارایه می نماید . همچنین ممکن است یک پروژه پایلوت به منظور پیاده سازی مدل در یک محیط تولیدی توسط تیم پروژه سازماندهی و اجراء شود

منابع :‌

Fabak

edureka