داده کاوی یعنی کشف الگوهای ناشناخته و احتمالا موثر از دل حجم زیادی از داده ها که در یک فرایند صحیح سازمان را قادر سازد، به درک عمیقی از رسالت خود برسد.
شرکت IBM متدولوژی را تدوین کرده که طبق آن، فرایند داده کاوی بصورت یک چرخه دائمی می تواند انجام شود. این چرخه شامل مراحلی به شکل زیر است: 1- درک صحیح از کسب و کار 2- درک درست از داده های مرتبط با کسب و کار 3- آماده سازی داده ها 4- مدل سازی داده ها 5- ارزیابی مدل 6- و در نهایت استقرار نتایج پروژه داده کاوی.
همانطور که در شکل نمایان است بسیاری از اقدامات بصورت رفت و برگشت انجام می شوند و بدین صورت اطمینان حاصل می شود که پروژه در راستای اهداف خود پیش می رود.
بنابراین هر پروژه داده کاوی از درک صحیح از کسب و کار آغاز می شود. بدون شناخت اهداف و مقاصد کسب و کار و شناخت مساله، آغاز کردن یک پروژه داده کاوی اشتباه است.
در مرحله بعد داده های مرتبط با کسب و کار را شناسایی می شوند. مرتبط بودن بسیار مهم است زیرا در هر کسب و کاری حجم زیادی داده وجود دارد که باید ارتباط آنها با اهداف پروژه، کشف شود.
پالایش، تمیز کردن و تصحیح داده ها در مرحله بعد انجام می شود و سپس مدل هایی استخراج شده مورد ارزیابی قرار می گیرد و در صورتیکه با اهداف اولیه پروژه مطابقت داشت و بینش کافی برای ما ایجاد کرد، می تواند استقرار یابد و این چرخه همیشه ادامه خواهد داشت.
نویسنده: احمدرضا خسروی