پایگاه داده تحت عنوان سیستم مدیریت پایگاه داده - Database Management System - (DBMS) نیز شناخته میشود. سیستم شامل مجموعهای از دادههای به هم مرتبط است که شامل مجموعهای از برنامههای نرمافزاری برای مدیریت و دسترسی به دادهها است. این برنامههای کاربردی مکانیزمی برای تعریف ساختار پایگاه داده و انبارههای داده را فراهم می کنند. همچنین از آنها برای مدیریت همزمان دسترسی اشتراکی یا توزیع شده به دادهها و حصول اطمینان از پایداری و امنیت اطلاعات ذخیره شده در سیستم برای مقابله با خرابی و یا تلاشهایی که برای دسترسیهای غیرمجاز به آنها شکل می گیرد، نیز استفاده میشود.
یک پایگاه داده رابطهای مجموعهای از جداول است که هر کدام از آنها نام منحصر به فرد خود را دارند. هر جدول شامل مجموعهای از خصوصیات - Attributes - است(ستونها فیلدها). همچنین این جداول حاوی مجموعههای بزرگی از چندتاییها - Tuples - (رکوردها یا سطرها) هستند. هر چندتایی در جدول رابطهای، نشاندهنده یک شیء است که به وسیله کلیدی منحصر به فرد شناخته میشود. همچنین این شیء به وسیله مجموعهای از مقادیر خصوصیت توصیف میشود. مدلهای دادههای معنایی - Semantic - از قبیل مدل موجودیت - رابطه یا ER - Entity-Relationship - به صورت معمول برای پایگاههای داده رابطهای ساخته میشوند. در واقع مدل ER، پایگاه دادهای با مجموعه موجودیتها و روابط آنها را نشان میدهد.
شرکت آل الکترونیکس را که از آن برای تشریح مفاهیم مطرح شده در این کتاب استفاده میشود، در نظر بگیرید. این شرکت به وسیله جداول رابطهای که در ادامه میآید، توصیف شده است: مشتری، آیتم، کارمند و شعبه. این سرخطها در تصویر نشان داده شدهاند(سرخط به عنوان زمینه رابطه نیز شناخته میشود)
· رابطه مشتری شامل مجموعهای خصوصیت است که اطلاعات مشتری را توصیف میکنند. این اطلاعات شامل یک شماره منحصر به فرد برای مشتری (شناسه مشتری)، نام مشتری، آدرس، سن، شغل، درآمد سالیانه، اطلاعات کارت اعتباری و طبقه وی میشود.
· به طور مشابه، هر یک از رابطههای مربوط به موارد، کارمندها و زیر شاخه ها، شامل مجموعهای خصوصیت هستند که ویژگیهای آنها را توصیف میکنند.
مشتری (شناسه مشتری، نام، آدرس، سن، شغل، درآمد سالانه، اطلاعات اعتباری، طبقه و...)
موارد (شناسه مورد، برند، طبقه، نوع، قیمت، مکان ساخت، تامین کننده، هزینه و ...)
کارمند (شناسه کارمند، نام، طبقه، گروه، حقوق، پورسانت، و...)
شعبه (شناسه شعبه، نام، آدرس و ...)
خریدها (شناسه تراکنش، شناسه مشتری، شناسه کارمند، تاریخ، زمان، روش پرداخت، مقدار پرداخت)
موارد فروشرفته (شناسه تراکنش، شناسه مورد، تعداد)
محل کار (شناسه کارمند، شناسه شعبه)
همچنین جداول میتوانند برای نمایش ارتباطات بینابین و درونی چندین موجودیت استفاده شوند. در مثال ما این ارتباطات شامل: خریدها (مواردی که مشتری خریداری میکندیا تراکنشی که به وسیله یکی از کارمندان ثبت شدهاست)، موارد فروشرفته (لیست مواردی که در یک تراکنش فروخته شده) و محل کار (کارمندی که در یکی از شعبات شرکت آل الکترنیکس کار میکند) است.
برای دسترسی به دادههای رابطهای میتوان از جستجوی پایگاه داده که به وسیله یک زبان جستجوی رابطهای مثل SQL نوشته شدهاست و یا از یک رابط گرافیکی استفاده نمود. در اینجا هر جستجو به مجموعهای از عملگرهای رابطهای تبدیل میشود. این عملگرها شامل: اتصال، انتخاب، و تصویرسازی می باشند که برای انجام پردازشی کارا، بهینه شدهاند. جستجو، امکان بازیابی زیر مجموعههای مشخصی از دادهها را فراهم میکند. فرض میکنیم شغل شما تحلیل دادههای شرکت آل الکترونیکس باشد. شما میتوانید با استفاده از جستجوهای رابطهای، مواردی از قبیل "لیست تمام موارد فروختهشده در فصل گذشته را به من نشان بده" را شناسایی کنید. زبانهای رابطهای از عملگرهای جمعکننده نیز استفاده میکنند، برای مثال: جمع، میانگین، شمارنده، حداکثر و حداقل. با استفاده از عملگرهای جمعکننده میتوانید "کل فروش ماه گذشته را به تفکیک شعبه نشان بده" یا "چه تعداد تراکنشهای فروش در ماه دسامبر اتفاق افتاده است؟" یا "کدام فروشنده بیشترین فروش را داشته است؟" را جستجو کنید.
در کاوش پایگاههای داده میتوان گام را فراتر نهاد و روندها یا الگوهای داده را نیز جستجو کرد. به طور مثال سیستمهای کاوش داده میتوانند دادههای مشتری را برای پیش بینی ریسک اعتباری مشتریان جدید استفاده کنند. این کار بر اساس درآمد، سن و اطلاعات اعتباری قبلی آنها انجام میشود.
سیستمهای داده کاوی ممکن است انحرافات را نیز تشخیص دهند. منظور از انحرافات مواردی هستند که فروش آنها در مقایسه با سال گذشته بسیار دور از انتظار بودهاست. برخی از این انحرافات را میتوان مورد بررسیهای بیشتری قرار داد. برای مثال نتیجه دادهکاوی ممکن است کشف تغییر در بستهبندی یک مورد یا افزایش قیمت آن باشد.
پایگاههای داده رابطهای یکی از مهمترین، معمولترین و در دسترسترین منابع اطلاعاتی موجود هستند. بنابراین میتوان پایگاههای داده رابطهای را یکی از مهمترین شکلهای داده در مطالعات دادهکاوی دانست.