محمد فعال علوی
محمد فعال علوی
خواندن ۵ دقیقه·۴ سال پیش

داده کاوی - قسمت سوم


پایگاه داده

پایگاه داده تحت عنوان سیستم مدیریت پایگاه داده - Database Management System - (DBMS) نیز شناخته می‌شود. سیستم شامل مجموعه‌ای از داده‌های به هم مرتبط است که شامل مجموعه‌ای از برنامه‌های نرم‌افزاری برای مدیریت و دسترسی به داده‌ها است. این برنامه‌های کاربردی مکانیزمی برای تعریف ساختار پایگاه داده و انباره‌های داده را فراهم می کنند. همچنین از آنها برای مدیریت همزمان دسترسی اشتراکی یا توزیع شده به داده‌ها و حصول اطمینان از پایداری و امنیت اطلاعات ذخیره شده در سیستم برای مقابله با خرابی و یا تلاش‌هایی که برای دسترسی‌های غیرمجاز به آنها شکل می گیرد، نیز استفاده می‌شود.

یک پایگاه داده رابطه‌ای مجموعه‌ای از جداول است که هر کدام از آنها نام منحصر به فرد خود را دارند. هر جدول شامل مجموعه‌ای از خصوصیات - Attributes - است(ستون‌ها فیلدها). همچنین این جداول حاوی مجموعه‌های بزرگی از چندتایی‌ها - Tuples - (رکوردها یا سطرها) هستند. هر چندتایی در جدول رابطه‌ای، نشان‌دهنده یک شیء است که به وسیله کلیدی منحصر به فرد شناخته می‌شود. همچنین این شیء به وسیله مجموعه‌ای از مقادیر خصوصیت توصیف می‌شود. مدل‌های داده‌های معنایی - Semantic - از قبیل مدل موجودیت - رابطه یا ER - Entity-Relationship - به صورت معمول برای پایگاه‌های داده رابطه‌ای ساخته می‌شوند. در واقع مدل ER، پایگاه داده‌ای با مجموعه موجودیت‌ها و روابط آنها را نشان می‌دهد.

مثال: یک پایگاه داده رابطه‌ای برای شرکت آل الکترونیکس

شرکت آل الکترونیکس را که از آن برای تشریح مفاهیم مطرح شده در این کتاب استفاده می‌شود، در نظر بگیرید. این شرکت به وسیله جداول رابطه‌ای که در ادامه می‌آید، توصیف شده است: مشتری، آیتم، کارمند و شعبه. این سرخط‌ها در تصویر نشان داده شده‌اند(سرخط به عنوان زمینه رابطه نیز شناخته می‌شود)

· رابطه مشتری شامل مجموعه‌ای خصوصیت است که اطلاعات مشتری را توصیف می‌کنند. این اطلاعات شامل یک شماره منحصر به فرد برای مشتری (شناسه مشتری)، نام مشتری، آدرس، سن، شغل، درآمد سالیانه، اطلاعات کارت اعتباری و طبقه وی می‌شود.

· به طور مشابه، هر یک از رابطه‌های مربوط به موارد، کارمندها و زیر شاخه ها، شامل مجموعه‌ای خصوصیت هستند که ویژگی‌های آنها را توصیف می‌کنند.




مشتری (شناسه مشتری، نام، آدرس، سن، شغل، درآمد سالانه، اطلاعات اعتباری، طبقه و...)

موارد (شناسه مورد، برند، طبقه، نوع، قیمت، مکان ساخت، تامین کننده، هزینه و ...)

کارمند (شناسه کارمند، نام، طبقه، گروه، حقوق، پورسانت، و...)

شعبه (شناسه شعبه، نام، آدرس و ...)

خریدها (شناسه تراکنش، شناسه مشتری، شناسه کارمند، تاریخ، زمان، روش پرداخت، مقدار پرداخت)

موارد فروش‌رفته (شناسه تراکنش، شناسه مورد، تعداد)

محل کار (شناسه کارمند، شناسه شعبه)




همچنین جداول می‌توانند برای نمایش ارتباطات بینابین و درونی چندین موجودیت استفاده شوند. در مثال ما این ارتباطات شامل: خریدها (مواردی که مشتری خریداری می‌کندیا تراکنشی که به وسیله یکی از کارمندان ثبت شده‌است)، موارد فروش‌رفته (لیست مواردی که در یک تراکنش فروخته شده) و محل کار (کارمندی که در یکی از شعبات شرکت آل الکترنیکس کار می‌کند) است.

برای دسترسی به داده‌های رابطه‌ای می‌توان از جستجوی پایگاه داده که به وسیله یک زبان جستجوی رابطه‌ای مثل SQL نوشته شده‌است و یا از یک رابط گرافیکی استفاده نمود. در اینجا هر جستجو به مجموعه‌ای از عملگرهای رابطه‌ای تبدیل می‌شود. این عملگرها شامل: اتصال، انتخاب، و تصویرسازی می باشند که برای انجام پردازشی کارا، بهینه شده‌اند. جستجو، امکان بازیابی زیر مجموعه‌های مشخصی از داده‌ها را فراهم می‌کند. فرض می‌کنیم شغل شما تحلیل داده‌های شرکت آل الکترونیکس باشد. شما می‌توانید با استفاده از جستجوهای رابطه‌ای، مواردی از قبیل "لیست تمام موارد فروخته‌شده در فصل گذشته را به من نشان بده" را شناسایی کنید. زبان‌های رابطه‌ای از عملگرهای جمع‌کننده نیز استفاده می‌کنند، برای مثال: جمع، میانگین، شمارنده، حداکثر و حداقل. با استفاده از عملگرهای جمع‌کننده می‌توانید "کل فروش ماه گذشته را به تفکیک شعبه نشان بده" یا "چه تعداد تراکنش‌های فروش در ماه دسامبر اتفاق افتاده است؟" یا "کدام فروشنده بیشترین فروش را داشته است؟" را جستجو کنید.

در کاوش پایگاه‌های داده می‌توان گام را فراتر نهاد و روندها یا الگوهای داده را نیز جستجو کرد. به طور مثال سیستم‌های کاوش داده می‌توانند داده‌های مشتری را برای پیش بینی ریسک اعتباری مشتریان جدید استفاده کنند. این کار بر اساس درآمد، سن و اطلاعات اعتباری قبلی آنها انجام می‌شود.

سیستم‌های داده کاوی ممکن است انحرافات را نیز تشخیص دهند. منظور از انحرافات مواردی هستند که فروش آنها در مقایسه با سال گذشته بسیار دور از انتظار بوده‌است. برخی از این انحرافات را می‌توان مورد بررسی‌های بیشتری قرار داد. برای مثال نتیجه داده‌کاوی ممکن است کشف تغییر در بسته‌بندی یک مورد یا افزایش قیمت آن باشد.

پایگاه‌های داده رابطه‌ای یکی از مهمترین، معمول‌ترین و در دسترس‌ترین منابع اطلاعاتی موجود هستند. بنابراین می‌توان پایگاه‌های داده رابطه‌ای را یکی از مهمترین شکل‌های داده در مطالعات داده‌کاوی دانست.

داده کاویپایگاه دادهdata miningdbmsdatabase management sysytems
لیسانس مهندسی صنایع/فوق لیسانس مدیریت کارآفرینی/دانشجوی دوره دیجیتال مارکتینگ/نوپای تولید محتوا
شاید از این پست‌ها خوشتان بیاید