آمار شهید بهشتی خوندم. حوزه فعالیتم دیتاساینسه. عضو کوچیکی از خانوادهی شتابدهنده سنجیده و شرکت علم داده ارزیاب ام. پروفایل من در ارزیاب: https://arz-yab.com/our-teams/personalpage.php?uid=2
هرم DIWK یا هرم دانش در علم داده
در مطلب دیتاساینتیست کیست اشاره کرده بودم یک دیتاساینتیست برای این که مسائل رو حل کنه باید مراحل هرم دانش رو طی کنه. همینطور یک توضیح مختصر درباره هرم دانش داده بودم. در این مطلب در انتشارات ارزیاب سعی کردم به طور جامع به بخش های مختلف هرم دانش و اهمیت دانستن اون در علم داده بپردازم.
برای استخراج دانش از داده های خام نیازه که داده ها پردازش بشن. مراحل پردازش داده ها به صورت کلی در هرم دانش خلاصه میشه. هرم دانش، سلسله مراتب خِرد و سلسله مراتب اطلاعات بعضی از نام هایی هستند که به نمایش روابط بین دادهها، اطلاعات، دانش و خرد اشاره میکنند.
هرم دانش نیز همانند مدل های سلسله مراتبی دیگر از مجموعه بلوک هایی ساخته شده که ترتیب داره. دادهها(data) در پایین ترین قسمت این هرم قرار میگیرد. پس از آن اطلاعات(information) و سپس دانش(knowledge) قرار میگیرند و بالاترین بخش این هرم خرد(wisdom) است.
هر مرحلهای که در این هرم طی میشه؛ به سوالی دربارهی داده های اولیه پاسخ داده میشه و به اون ارزش هایی اضافه میکنه. هرچقدر به سوالات بیشتری پاسخ داده بشه مراحل بیشتری در این هرم طی شده. به بیانی دیگر هرچه معنای بیشتری از داده ها استخراج کنیم، به دانش و بینش بیشتری از داده های اولیه دست یافتهایم. در راس هرم، ما دانش و بینش ها را به یک تجربه یادگیری تبدیل کردهایم که راهنمای اعمال ما است.
در ادامه بخش های مختلف هرم داده را بررسی میکنیم:
· داده ها:
داده ها مجموعهای از حقایق به صورت خام یا سازمان یافته مانند اعداد یا حروف هستند.
بهرحال بدون داشتن متن(متغیر)، داده ها ممکنه معنی کمی داشته باشند. برای مثال 13990714 فقط توالی اعداد است که اهمیت آشکاری ندارند. اما اگر ما اون رو در متن «این یک تاریخ است» مشاهده کنیم؛ آن گاه میتوان گفت این توالی اعداد به معنی 14 ام ماه مهر سال 1399 است. با اضافه کردن متن و ارزش به این اعداد، آن ها معنی بیشتری نسبت به قبل دارند. به این ترتیب ما توالی خام اعداد را به اطلاعات تبدیل کردهایم.
· اطلاعات:
اطلاعات دومین بلوک ساختمانی هرم دانش است.
در این مرحله داده ها از خطا ها پاکسازی شده و بیشتر به روشی پردازش میشوند که اندازه گیری، تجسم و تجزیه و تحلیل برای یک هدف خاص رو آسانتر میکند.
بسته به این هدف، پردازش داده ها میتواند شامل عملیات مختلفی مانند ترکیب مجموعه های مختلف داده (جمع شدن)، اطمینان حاصل کردن از این که داده های جمع آوری شده چقدر مرتبط و دقیق هستند(اعتبار سنجی) و ... باشد. به عنوان یک مثال کلی، میتونیم داده های خودمون رو به گونهای سامان دهیم که روابط بین نقاط مختلف داده های به ظاهر متفاوت و گسسته را در معرض نمایش قرار دهد. مثالی خاص تر در این زمینه، ما می تونیم عملکرد شاخص کل بورس را با ایجاد گرافی از نقاط داده های معاملات برای یک دوره خاص، بر اساس داده های پایان هر روز، تجزیه و تحلیل کنیم.
با پرسیدن سوالات مرتبط با موضوع «چه کسی»، «چرا»، «چه موقع»، «کجا»، «چه زمانی» و ... میتونیم اطلاعات ارزشمندی از داده ها بدست آوریم و پاسخ این سوالات، داده ها را برای ما مفید تر میکند.
اما چه زمانی به سوال «چگونه» پاسخ دهیم؟ این همان چیزی است که باعث جهش از اطلاعات به دانش میشود.
· دانش:
«چگونه» اطلاعات حاصل از داده های جمع آوری شده، مربوط به اهداف ما هستند؟ «چگونه» قطعات این اطلاعات به سایر قسمت ها متصل میشوند تا معنا و ارزش بیشتری بیابند؟ و شاید مهم ترین سوال در این بخش این باشد که:
«چگونه» میتونیم از اطلاعات برای دستیابی به هدف خود استفاده کنیم؟
هنگامی که ما اطلاعات را تنها به عنوان توضیحی از حقایق جمع آوری شده نمیبینیم و درک میکنیم که چگونه میتوان از آن برای دستیابی به اهدافمان استفاده کرد، ما آن را به دانش تبدیل کردهایم. این دانش اغلب برتری است که شرکت ها نسبت به سایر رقبای خود دارند. هرچه ما روابطی کشف کنیم که صریحاً به عنوان اطلاعات بیان نشده است، ما بینش های عمیق تری را بدست میآوریم که باعث میشه ما یک مرحله در هرم دانش بالاتر رویم. هنگامی که از دانش و بینش های به دست آمده از اطلاعات برای تصمیم گیری ها استفاده میکنیم، می توان گفت که ما به مرحله نهایی «خرد» از هرم دانش رسیدهایم.
· خرد:
خرد بالاترین مرحله هرم دانش است و برای رسیدن به این مرحله باید به سوالاتی از قبیل «چرا کاری انجام دهیم؟» و «بهترین کار چیست؟» پاسخ دهیم.
به عبارت دیگر، خرد دانشی است که در عمل به کار برده میشود.
همچنین میتوان گفت اگر مرحله داده ها و اطلاعات شبیه به نگاه کردن به گذشته باشند، مراحل دانش و خرد به این مربوط میشود که ما در حال حاضر برای بهتر شدن آینده، چه کاری میتونیم انجام دهیم.
مطلبی دیگر از این انتشارات
یادگیری ماشین و مدل سازی آماری(شباهت ها و تفاوت ها)
مطلبی دیگر از این انتشارات
داده کاوی چیست؟ - نگاهی کلی به داده کاوی(Data Mining)
مطلبی دیگر از این انتشارات
روش شش سیگما در مدیریت داده محور کسب و کار ها