کی از زمینههایی که تازه متولد شده و به سرعت در حال بزرگ شدن است داده کاوی نام دارد. برای درک آن باید دانش خوبی از مفاهیم داده کاوی و تکنیکهای کشف الگوهای جالب داده در کاربردهای مختلف داشت.
در دنیایی زندگی میکنیم که فناوریهای عظیمی برای جمع کردن داده از پیرامونمان هر روز در حال بیشتر ساخته شدن است. مطمئنا این دادهها بایستی تجزیه تحلیل شوند برای این کار نیازمند ابزارها و تکنیکهایی جهت کشف دانش از دادهها است.
در واقع درستتر آن است به جای اینکه بگوییم «در عصر اطلاعات زندگی میکنیم» بگوییم «در عصر داده زندگی میکنیم». ترابایتها یا پتابایتها داده در شبکههای کامپیوتوری، وب جهان گستر و انواع دستگاههای ذخیره داده هر روزه از کسب و کارها، جامعه، علم، مهندسی، پزشکی و تقریبا هر جنبه دیگری از زندگی ما به دست میآید. رشد انفجاری حجم داده منجر به رایانشی شدن جامعه ما و تولید سریع ابزارهای ذخیره و جمعآوری داده شده است.
کسب و کارهای مختلفی در سراسر دنیا، دادههای عظیم تولید میکنند که از جمله این دادهها میتوان تراکنشهای فروش، رکوردهای معامله سهم شرکت، توصیف محصول، تبلیغات فروش، عملکرد و پروفایل شرکت و فیدبک مشتریان نام برد.
برای مثال، فروشگاههای بزرگ مانند والمارت، چندین هزار شعبه در سراسر دنیا دارد که تراکنشهای هفتگی آن بیش از صدها میلیون است. در حوزه علم و مهندسی مرتبه بالای پتابایتها داده به صورت مداوم از سنجش از راه دور، سنجیدن پیشرفت، آزمایشات علمی، عملکرد سیستم، مشاهادات مهندسی و مانیتورینگ محیط به دست میآید.
داده کاوی یک موضوع میان رشتهای است و بدین سبب به شیوههای متفاوتی میتوان تعریفش کرد. حتی خود اسم داده کاوی همه مولفههای اصلیش را نشان نمیدهد. در کل کاوی به معنای کندن خاکها و سنگها و صخرهها برای یافتن طلا به کار میرود. اگر دقت کنید در اینجا نمیگوییم rock mining یا sand mining بلکه میگوییم gold mining. خوب پس به جایی که بگوییم data mining باید بگوییم knowledge mining ولی این عبارت که معنای دانش کاوی به خوبی بیانگر استخراج دانش از دادهها نیست شاید بگویید بهتر باشد بگوییم knowledge mining from data ، خوب این عبارت درستی است اما خیلی طولانی است، بدین سبب متخصصین و دانشمندان و دانشجویان این حوزه توافق کردند که از همان است داده کاوی به انگلیسی data mining استفاده کنند.
گفتیم که دادهکاوی یعنی فرآیند کشف دانش از داده، اما این فرایند خود شامل فرآیندهای کوچک دیگری است که عبارتند از:
Data Cleaning به فارسی پاکسازی داده که برای حذف دادههای نویز و ناسازگار استفاده میشود.
Data integration به فارسی یکپارچه سازی داده که در آن چندین منبع داده ترکیب میشوند.
Data Selection به فارسی انتخاب داده که دادههای مرتبط با تحلیل از پایگاه داده بازیابی میشوند.
Data Mining به فارسی داده کاوی که در آن با اعمال روشهای جستجوی هوشمند به استخراج الگوها از دادهها پرداخته میشود.
Pattern evaluation به فارسی ارزیابی الگو که در آن الگوهای جالب ارائه دهنده دانش مبتنی بر سنجههای مورد علاقه شناسایی میشود.
Knowledge presentation به فارسی ارائه دانش که از تکنیکهای بصری سازی و ارائه دانش جهت ارائه دانش به کاربران استفاده میشود.
گامهای یک تا چهار شکلهای متفاوت پیش پردازش داده است. گام دادهکاوی ممکن است با کاربر یا ایستگاه دانش تعامل داشته باشد. الگوهای جالب به کاربر ارائه میشوند و ممکن است به عنوان دانش جدید در ایستگاه دانش ذخیره شوند.
نوشتههای بالا، نوشتههای کتاب دادهکاوی : مفاهیم و تکنیکها نوشته ژیاوی هان، میشلین کمر و ژان پی است. ژیاوی هان یک چینی است که دانشمند علوم کامپیوتر است و صاحب مقام آبل بلیس در دانشگاه ایلینوی است. برترین اثر او همین کتاب دادهکاوی است که بیش از ۵۰ هزار بار به آن استناد شده است. ژیان پی نیز یک چینی است و پروفسور علوم کامپیوتر در دانشگاه سایمون فریزر است.
مولف کتاب را به گونهای فصل بندی کرده است که انگار میدانسته کسی که اولین بار با دادهکاوی آشنا میشود چه سوالهایی میپرسد و هر چه بیشتر میگذرد چه چیزهایی برای او جالب میشوند.
کتاب با مقدمه شروع میشود و در آن به سوالات از قبیل اینکه دادهکاوی چیست، دادهکاوی روی چه دادههایی اعمال میشود، چه نوع الگوهایی کشف میشود، از چه فناوریهایی استفاده میشود، چه حوزههایی از داده کاوی بهره میبرند و چالشهای اصلی دادهکاوی کدامها هستند پاسخ می دهد.
سپس ذهن خواننده را سمت خود دادهها میبرد تا خواننده دادهها را بشناسد، بدین سبب است که در فصل دوم مفاهیمی چون اشیا داده و انواع ویژگی آنها، توصیف آماری پایه از داده، دیداری سازی داده، سنجیدن مشابهت داده تعبیه شده است.
حالا که خواننده با داده آشنا شد، نیاز است با مفهوم پیش پردازش داده آشنا شود و چیزهایی مانند پاکسازی داده، یکپارچهسای داده، کاهش داده و انتقال داده را بیاموزد که اینها همگی در فصل سوم این کتاب هستند.
در فصل چهارم به انبار دادهها و پردازش تحلیلی آنلاین پرداخته میشود مفاهیم پیچیدهای مانند مدلسازی انبار داده، مکعب داده و OLAP، کاربرد، طراحی و پیادهسازی انبار داده به همراه چگونگی تعمیم داده آموزش داده میشوند.
اینک خواننده به دنیای دادهکاوی پا گذاشته است، حالا نیاز است مفاهیم پیچیده و تخصصی این رشته آشنا شود. پس در فصل پنجم فناوری مکعب داده به صورت کامل آموزش داده شده است.
حال وقت آن فرا رسیده است که خواننده کتاب گامی به جلو بردارد و از چیزهایی که آموخته بهره ببرد، برای همین مولف در فصل ششم مقدمهای بر استخراج الگوهای تکراری، انجمنها و وابستگیها نوشته است.
برای تکمیل کار استخراج الگوها، در فصل هفتم کاویدن الگو به صورت پیشرفته بررسی شده است. در این فصل مفاهیمی مانند کاویدن الگو در فضاهای چند سطحی و چند بعدی، استخراج الگوی مکرر مبتنی بر محدودیت، استخراج داده های با ابعاد بالا و الگوهای غول آسا، کاویدن الگوهای تقریبی و فشرده، کشف الگو و کاربردهای آن بررسی گشتهاند.
همچنان بیان مفاهیم پیچیده و پیشرفته داده کاوی ادامه دارد در فصل هشتم خواننده به صورت پایه و مقدماتی به موضوع دستهبندی پرداخته است و کار خویش را در فصل نهم با بررسی پیشرفته دستهبندی در دادهکاوی تکمیل کرده است. مفاهیم مانند شبکه های باور بیزی، دستهبندی با Backpropagation، پشتیبانی از ماشینهای بردار، دستهبندی با استفاده از الگوهای مکرر ، الگوهای تنبل یا یادگیری از همسایگان در فصل نهم آورده شده است.
در فصل دهم به خوشه بندی پراخته شده است. به انواع روشهای خوشهبندی مبتنی بر غلظت، مبتنی بر Grid، خوشهبندی کیمیانگین و دیگر مسائل مربوط به خوشهبندی در این فصل پرداخته شده است. در فصل یادهم مسائل مربوط به خوشه بندی تکمیل شدند و مفاهیم مانند خوشهبندی بر اساس احتمال، خوشهبندی فازی، خوشهبندی دادههایی با ابعاد بالا، خوشهبندی گراف و داده شبکه و خوشهبندی با محدودیت از جمله مسائل مطرح شده در این فصل هستند.
در فصل دوازدهم، به دادههای پرت پرداخته شده است و بیان شده است که چرا شناسایی دادههای پرت مهم است و چقدر می تواند در تحلیل خوشه و دادهکاوی به کار آید و روشهای مختلف برای شناسایی و استفاده از آن آورده شده است.
فصل سیزدهم آخرین فصل این کتاب است، اما تمامی موضوعهای مرتبط با دادهکاوی در فصلهای قبل بیان شدند. در این فصل روندها و مرزهای دادهکاوی توضیح داده شده است. مباحث مانند انواع کاوش دادههای پیچیده، انواع متدولوژیهای دادهکاوی، کاربردها و مسائل داغ این حوزه بررسی شدهاند.