به صورت معمول، هر رکورد در یک پایگاه داده تراکنشی، تراکنشهایی نظیر خرید مشتری، رزرو پرواز یا کلیک کاربر بر روی صفحه وب را در خود جای داده است. هر تراکنش شامل شماره تراکنش منحصر به فرد(شناسه تراکنش) و لیستی از موارد تشکیلدهنده آن از جمله موارد خریداری شده در آن تراکنش میباشد. پایگاه داده تراکنشی ممکن است جداولی اضافه تر داشته باشد که شامل اطلاعات دیگر مرتبط با تراکنشها نظیر موارد، اطلاعات مربوط به فروشنده، شعب و غیره باشد.
مثال: پایگاه داده تراکنشی برای شرکت آلالکترونیکس
ذخیرهسازی تراکنشها در جدول میتواند به ازای هر تراکنش، به صورت یک رکورد انجام شود. بخشی از پایگاه داده تراکنشی شرکت آلالکترونیکس را در تصویر 1-8 میتوان مشاهده نمود.
از دیدگاه پایگاه داده رابطهای، جدول فروش نشان داده شده در شکل، رابطهای تو در تو را نشان داده است. چرا که خصوصیت "لیست موارد شناسه"، شامل مجموعهای از موارد است. از آنجا که بسیاری از سیستمهای پایگاه داده رابطهای، ساختارهای تو در تو را پشتیبانی نمیکنند، پایگاه داده تراکنشی معمولا در یک فایل مسطح و در قالبی شبیه جدول 1-8 و یا در قالبی شبیه به جدول "موارد فروش رفته" ذخیره میشود.
به عنوان یک تحلیلگر در شرکت آلالکترونیکس، ممکن است بپرسید: "کدام موارد به خوبی با هم به فروش رفتهاند؟" از این نوع تجزیه و تحلیل داده روی سبد خرید بازار میتوان به عنوان یک استراتژی افزایش فروش برخی از اقلام کالا با هم، استفاده نمود. به عنوان مثال، با توجه به این که به صورت معمول پرینترها همراه با رایانه خریداری میشوند، شما میتوانید پرینتر خاصی را با تخفیف بسیار زیاد (و یا حتی به صورت رایگان) به مشتریان خریدار کامپیوتر ارائه دهید و امیدوار باشید که کامپیوترهای شما فروش بیشتری داشته باشند. (که اغلب گرانتر از پرینتر هستند). سیستم پایگاه داده سنتی قادر به انجام تجزیه و تحلیل داده در سطح سبد خرید بازار نیست. خوشبختانه، دادهکاوی بر روی دادههای تراکنشی میتواند منجر به شناسایی موارد و اقلامی شود که اغلب با هم فروش میروند. کاوش الگوهای تکراری از دادههای تراکنشی در فصول 6 و 7 مورد بحث قرار گرفته است.
انواع دیگر داده ها
علاوه بر پایگاه داده رابطهای، انباره داده و دادههای تراکنش، بسیاری از انواع دیگر داده که دارای اشکال متنوع و ساختارها و مفاهیم معنایی به طور نسبی متفاوتی هستند نیز وجود دارد. این نوع دادهها را میتوان در بسیاری از کاربردها مشاهده نمود: دادههای مربوط به زمان یا دنباله (به عنوان مثال، سوابق تاریخی، دادههای تبادل سهام، سری زمانی و دنباله دادههای بیولوژیکی)، جریانهای همزمان داده (به عنوان مثال، نظارت تصویری و دادههای سنسور که به طور مداوم منتقل میشوند)، دادههای مکانی (به عنوان مثال نقشهها)، دادههای طراحی و مهندسی (برای مثال در طراحی ساختمانها، اجزای سیستم و یا مدارات مجتمع به کار میروند)، ابر متنها و دادههای چند رسانهای( شامل متن، تصویر، ویدئو و دادههای صوتی)، گراف و دادههای شبکهای(برای مثال شبکههای اجتماعی و اطلاعاتی) و دادههای وب (مخازن عظیم اطلاعاتی که به طور بسیار گستردهای توسط اینترنت توزیع شده و در دسترس همگان است) این برنامههای کاربردی چالشهای جدیدی به همراه داشتهاند. برای مثال چگونگی انجام انتقال سازههای خاص (برای نمونه، توالیها، درخت وارهها، گرافها و شبکهها)، معانی خاص (مانند سفارش، تصویر، صدا و محتویات ویدئویی) و چگونگی دسترسی به الگوهای کاوش که حامل ساختارها و معانی غنی هستند.
از انواع داده ها، دانشهای مختلفی قابل کاوش است. در اینجا به برخی از این موارد اشاره میشود. براساس دادههای زمانی میتوانیم دادههای بانکی را برای یافتن روندهای در حال تغییر مورد کاوش قرار دهیم. نتایج میتواند به برنامهریزی صندوق داران بانک بر اساس حجم ترافیک مشتریان کمک کند. کاوش دادههای بورس اوراق بهادار میتواند در کشف روندهای موجود برای انتخاب استراتژیهای سرمایهگذاری به شما کمک کند (برای مثال این که بهترین زمان برای خرید سهام آلالکترونیکس چه زمانی است؟) میتوان جریان دادههای همزمان شبکههای کامپیوتری را برای شناسایی موارد غیر عادی در جریان پیام ها کاوش نمود. این کشفها میتواند به وسیله خوشهبندی، مدلهای ساختاری جریانهای پویا و یا از طریق مقایسه با الگوهای تکراری فعلی با نمونههای قبلی انجام شود. با استفاده از دادههای مکانی ممکن است به دنبال الگوهایی که تغییرات نرخ فقر شهری را بر اساس فاصله از بزرگراههای اصلی توصیف میکنند، بود. رابطه بین مجموعهای از موضوعات مکانی میتواند برای کشف این که کدام زیر مجموعههای آنها به صورت فضایی پیوسته یا مرتبط هستند، مورد بررسی قرار گیرند. به وسیله کاوش دادههای متنی مثل مقالات مربوط به دادهکاوی در ده سال گذشته، میتوان تحولات موضوعات داغ این حوزه را تشخیص داد. با استفاده از نظرات کاربران در مورد محصولات (که اغلب از طریق پیامهای متنی کوتاه ثبت میشوند)، میتوان احساسات مشتری را ارزیابی کرده و مقدار استقبال بازار از محصول را درک کرد. با استفاده از دادههای چند رسانهای میتوان تصاویر را برای شناسایی اشیا و طبقه بندی، یا اختصاص برچسب - Tag - به آنها، کاوش نمود. با استفاده از دادههای ویدئویی مربوط به یک بازی هاکی میتوان توالی سکانسهای ویدئویی که به گل منجر شده است را شناسایی نمود. وبکاوی میتواند ما را در درک نحوع توزیع اطلاعات در اینترنت یاری کند، این کار به صورت کلی از طریق شناسایی و دستهبندی صفحات وب و کشف پویاییهای وبسایت و به هم پیوستگیها و دیگر روابط موجود در صفحات وب مختلف، کاربران، جوامع و فعالیتهای مبتنی بر وب انجام میشود.
در کاربردهای مختلف، انواع متعددی از داده ها وجود دارند. برای مثال، وبکاوی اغلب با دادههای متنی و چند رسانهای صفحات وب (مثل تصاویر و فیلمها)، اطلاعات نموداری مانند نمودارهای وب و دادههای مربوط به نقشه در برخی از وبسایتها همراه است. در بیوانفورماتیک، توالی ژنها، شبکههای بیولوژیکی و سازههای فضایی سه بعدی از ژنها ممکن است با موضوعات معین بیولوژیکی وجود داشته باشد. کاوش در منابع چندگانه از دادههای پیچیده اغلب با رسیدن به یافتههایی به گسترش متقابل و تقویت این منابع منجر میشود. از سوی دیگر این یک امر چالشی است، زیرا مشکلات پاکسازی و یکپارچهسازی دادهها در کنار تعاملات پیچیده بین منابع چندگانه آنها میبایست صورت پذیرد.
اینگونه دادهها علاوه بر این که برای ذخیرهسازی کارآمد، بازیابی و به روزرسانی به امکانات پیشرفته نیازمندند، زمینه چالشهای تحقیقاتی و موضوعات اجرایی رو به رشدی برای دادهکاوی به وجود میآورند. دادهکاوی روی این گونه دادهها از موضوعات پیشرفته محسوب میشود که روشهای مورد استفاده در مورد آنها نسخه توسعه یافته تکنیکهای پایهای ارائه شده در این کتاب میباشند.