ویرگول
ورودثبت نام
محمد فعال علوی
محمد فعال علوی
خواندن ۴ دقیقه·۴ سال پیش

داده‌کاوی - قسمت دوم


داده‌کاوی چیست؟

داده‌کاوی به‌عنوان موضوعی میان رشته‌ای - Interdisciplinary- به طرق مختلفی تعریف می‌شود. حتی اصطلاح داده‌کاوی به واقع نمیتواند کلیه مولفه‌های اصلی مورد نظر را یک‌جا در بر گیرد. دقیقا به‌همان تصویر که در فرآیند استخراج طلا از سنگ یا شن و ماسه، به‌جای اصطلاح استخراج سنگ و شن و ماسه، اصطلاح استخراج طلا را به کار می بریم، در فرآیند استخراج داده نیز صحیح‌تر آن است که از اصطلاح "استخراج دانش از داده" استفاده شود که متاسفانه این عبارت تا حدودی طولانی است. اگرچه اصطلاح کوتاه‌تر استخراج دانش ممکن است تاکید ما بر عملیات استخراج دانش از حجم زیادی داده را منعکس ننماید، ولی با این‌حال می توان استخراج را واژه‌ای در نظر گرفت که به وضوح فرآیند یافتن مجموعه‌های کوچک قطعات گران‌بها را از میان مقدار زیادی از مواد خام، توصیف می کند.

بسیاری از مردم اصطلاح داده‌کاوی را به عنون مترادف واژه مصطلح دیگر آن یعنی کشف دانش از داده یا KDD به کار می برند. این موضوع در حالی است که دیگران داده‌کاوی را صرفا به عنوان گامی اساسی در فرآیند کشف دانش می‌دانند. فرآیند کشف دانش فرآیندی است که مراحل متوالی و تکرار شونده زیر را در بر می گیرد:

1- پاک‌سازی داده‌ها - Data Cleaning - (به منظور حذف داده‌های متناقض)

2- یکپارچه‌سازی داده - Data Integration- (که ممکن است در آن منابع چندگانه داده ترکیب گردند)

3- انتخاب داده - Data Selection - (که در آن داده‌های مربوط به عملیات تجزیه و تحلیل از پایگاه داده بازیابی می شود)

4- تغییر شکل داده - Data Transformation- (که طی آن داده‌ها به منظور انجام عملیات استخراج بوسیله خلاصه‌سازی یا تجمیع به فرم‌های مناسب تغییر شکل داده می شوند.)

5- داده‌کاوی (فرآیندی اساسی که طی آن از روش‌های هوشمند برای استخراج الگوهای داده استفاده می شود)

6- ارزیابی الگو (برای شناسایی الگوهای جالبی که دانش را در اندازه‌های جالب توجه نشان می دهد)

7- ارائه دانش (که در آن از تکنیک‌های تجسمی و نمایشی برای ارائه دانش استخراج شده به کاربران استفاده می شود)

طی مراحل 1 تا 4 اشکال مختلف پیش‌پردازش - Preprocessing- برای آماده‌شدن داده برای استخراج انجام می شود. مرحله استخراج داده ممکن است در تعامل با کاربر و یا یک پایگاه دانش انجام شود. الگوهای جالبی که استخراج شده برای کاربر نمایش داده می شود و در صورت تایید کاربر به عنوان دانش جدید در پایگاه دانش ذخیره می شود.

دیدگاه قبلی داده‌کاوی را به‌عنوان یکی از گام‌های فرآیند کشف دانش نشان داده است. البته داده‌کاوی یکی از گام‌های اساسی است، زیرا این فرآیند الگوهای پنهان را برای ارزیابی آشکار می کند. اگرچه در صنعت، در رسانه و در محیط پژوهش، واژه و عبارت داده‌کاوی اغلب به عنوان کل فرآیند کشف دانش شناخته ‌می‌شود (ممکن است به این دلیل باشد که عبارت داده‌کاوی بسیار کوتاه‌تر از عبارت کشف دانش از داده‌ها است) بنابراین تا اینجا توانستیم دیدگاهی کلی از عملیات داده‌کاوی به‌دست آوریم. به طور خلاصه داده‌کاوی فرایندی است که در آن از انبوه داده‌های موجود، الگوهای جالب توجه کشف شده و دانش از آنها استخراج می‌شود. منابع داده می‌تواند شامل: پایگاه‌های داده، انباره‌های داده، وب، دیگر مخازن داده یا داده‌ای که بصورت پویا در سیستم جریان دارد، باشد.

چه نوع داده‌هایی می‌تواند مورد کاوش قرار گیرد؟

داده‌کاوی به عنوان یک فناوری عمومی می‌تواند برای داده‌های متنوعی که برای کاربردهای مختلف مورد نظر ما وجود دارند، به کار گرفته شود. پایه‌ای‌ترین شکل‌های داده برای انجام کاوش عبارتند از: پایگاه‌های داده، انباره‌های داده، و داده‌های تراکنش‌ها. مفاهیم و تکنیک‌های ارائه شده در کتاب حاضر، بر این نوع داده‌ها متمرکز است. همچنین داده‌کاوی را می‌توان برای شکل‌های دیگر داده به کار برد (برای مثال: جریان‌های داده، دنباله‌های داده، گراف‌ها یا شبکه‌ها، داده‌های فضایی، داده‌های متنی، داده‌های چند رسانه‌ای و وب) ما در این کتاب مروری بر انواع دیگر داده خواهیم داشت، تکنیک‌های مورد استفاده برای کاوش در این چنین داده‌هایی در فصل 13 معرفی خواهند شد. در انتها باید این نکته را ذکر کرد که داده‌کاوی به طور قطع با انواع داده‌های نوظهور دیگری در آینده موجه خواهد بود.

داده کاویاستخراج دادهعلم دادهdata sciencedata mining
لیسانس مهندسی صنایع/فوق لیسانس مدیریت کارآفرینی/دانشجوی دوره دیجیتال مارکتینگ/نوپای تولید محتوا
شاید از این پست‌ها خوشتان بیاید