دادهکاوی بهعنوان موضوعی میان رشتهای - Interdisciplinary- به طرق مختلفی تعریف میشود. حتی اصطلاح دادهکاوی به واقع نمیتواند کلیه مولفههای اصلی مورد نظر را یکجا در بر گیرد. دقیقا بههمان تصویر که در فرآیند استخراج طلا از سنگ یا شن و ماسه، بهجای اصطلاح استخراج سنگ و شن و ماسه، اصطلاح استخراج طلا را به کار می بریم، در فرآیند استخراج داده نیز صحیحتر آن است که از اصطلاح "استخراج دانش از داده" استفاده شود که متاسفانه این عبارت تا حدودی طولانی است. اگرچه اصطلاح کوتاهتر استخراج دانش ممکن است تاکید ما بر عملیات استخراج دانش از حجم زیادی داده را منعکس ننماید، ولی با اینحال می توان استخراج را واژهای در نظر گرفت که به وضوح فرآیند یافتن مجموعههای کوچک قطعات گرانبها را از میان مقدار زیادی از مواد خام، توصیف می کند.
بسیاری از مردم اصطلاح دادهکاوی را به عنون مترادف واژه مصطلح دیگر آن یعنی کشف دانش از داده یا KDD به کار می برند. این موضوع در حالی است که دیگران دادهکاوی را صرفا به عنوان گامی اساسی در فرآیند کشف دانش میدانند. فرآیند کشف دانش فرآیندی است که مراحل متوالی و تکرار شونده زیر را در بر می گیرد:
1- پاکسازی دادهها - Data Cleaning - (به منظور حذف دادههای متناقض)
2- یکپارچهسازی داده - Data Integration- (که ممکن است در آن منابع چندگانه داده ترکیب گردند)
3- انتخاب داده - Data Selection - (که در آن دادههای مربوط به عملیات تجزیه و تحلیل از پایگاه داده بازیابی می شود)
4- تغییر شکل داده - Data Transformation- (که طی آن دادهها به منظور انجام عملیات استخراج بوسیله خلاصهسازی یا تجمیع به فرمهای مناسب تغییر شکل داده می شوند.)
5- دادهکاوی (فرآیندی اساسی که طی آن از روشهای هوشمند برای استخراج الگوهای داده استفاده می شود)
6- ارزیابی الگو (برای شناسایی الگوهای جالبی که دانش را در اندازههای جالب توجه نشان می دهد)
7- ارائه دانش (که در آن از تکنیکهای تجسمی و نمایشی برای ارائه دانش استخراج شده به کاربران استفاده می شود)
طی مراحل 1 تا 4 اشکال مختلف پیشپردازش - Preprocessing- برای آمادهشدن داده برای استخراج انجام می شود. مرحله استخراج داده ممکن است در تعامل با کاربر و یا یک پایگاه دانش انجام شود. الگوهای جالبی که استخراج شده برای کاربر نمایش داده می شود و در صورت تایید کاربر به عنوان دانش جدید در پایگاه دانش ذخیره می شود.
دیدگاه قبلی دادهکاوی را بهعنوان یکی از گامهای فرآیند کشف دانش نشان داده است. البته دادهکاوی یکی از گامهای اساسی است، زیرا این فرآیند الگوهای پنهان را برای ارزیابی آشکار می کند. اگرچه در صنعت، در رسانه و در محیط پژوهش، واژه و عبارت دادهکاوی اغلب به عنوان کل فرآیند کشف دانش شناخته میشود (ممکن است به این دلیل باشد که عبارت دادهکاوی بسیار کوتاهتر از عبارت کشف دانش از دادهها است) بنابراین تا اینجا توانستیم دیدگاهی کلی از عملیات دادهکاوی بهدست آوریم. به طور خلاصه دادهکاوی فرایندی است که در آن از انبوه دادههای موجود، الگوهای جالب توجه کشف شده و دانش از آنها استخراج میشود. منابع داده میتواند شامل: پایگاههای داده، انبارههای داده، وب، دیگر مخازن داده یا دادهای که بصورت پویا در سیستم جریان دارد، باشد.
دادهکاوی به عنوان یک فناوری عمومی میتواند برای دادههای متنوعی که برای کاربردهای مختلف مورد نظر ما وجود دارند، به کار گرفته شود. پایهایترین شکلهای داده برای انجام کاوش عبارتند از: پایگاههای داده، انبارههای داده، و دادههای تراکنشها. مفاهیم و تکنیکهای ارائه شده در کتاب حاضر، بر این نوع دادهها متمرکز است. همچنین دادهکاوی را میتوان برای شکلهای دیگر داده به کار برد (برای مثال: جریانهای داده، دنبالههای داده، گرافها یا شبکهها، دادههای فضایی، دادههای متنی، دادههای چند رسانهای و وب) ما در این کتاب مروری بر انواع دیگر داده خواهیم داشت، تکنیکهای مورد استفاده برای کاوش در این چنین دادههایی در فصل 13 معرفی خواهند شد. در انتها باید این نکته را ذکر کرد که دادهکاوی به طور قطع با انواع دادههای نوظهور دیگری در آینده موجه خواهد بود.