داده کاوی فرآیند مرتب سازی داده های بزرگ برای شناسایی الگوها و روابطی است که می تواند به حل مشکلات تجاری از طریق تجزیه و تحلیل آنها کمک کند. تکنیک ها و ابزارهای داده کاوی شرکت ها را قادر می سازد تا آینده را پیش بینی کنند و تصمیمات تجاری آگاهانه اتخاذ نمایند.
داده کاوی بخش کلیدی تجزیه و تحلیل داده به طور کلی و یکی از رشته های اصلی در علم داده است که از تکنیک های تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه داده ها استفاده می کند. در یک سطح جزئی تر، داده کاوی گامی در فرآیند کشف دانش در پایگاه های داده (KDD) است، یک روش علم داده برای جمع آوری، پردازش و تجزیه و تحلیل داده ها است. داده کاوی و KDD گاهی اوقات به جای هم ستفاده می شوند، اما معمولاً به عنوان موارد متمایز دیده می شوند. پیش نیاز داده کاوی آشنایی با مباحث مقدماتی و پیشرفته پایگاه داده است. به همین جهت پیشنهاد می کنیم قبل از ورود به این حیطه در دوره آموزش sql server ثبت نام نمایید.
الگوریتمهای داده کاوی
الگوریتمهای داده کاوی (خدمات تجزیه و تحلیل - داده کاوی)
دادهکاوی در سرویسهای تحلیلی SQL Server 2017 منسوخ و اکنون در سرویسهای تجزیه و تحلیل SQL Server 2022 متوقف شد. یک الگوریتم در داده کاوی (یادگیری ماشینی) مجموعه ای از اکتشافیها و محاسبات است که یک مدل از دادهها ایجاد می کند. برای ایجاد یک مدل، الگوریتم ابتدا دادههای ارائه شده توسط شما را تجزیه و تحلیل می کند و به دنبال انواع خاصی از الگوها یا روندها می گردد.
این الگوریتم از نتایج این تجزیه و تحلیل در چندین تکرار برای یافتن پارامترهای بهینه برای ایجاد مدل استخراج استفاده می کند. سپس این پارامترها در کل مجموعه داده اعمال می شوند تا الگوهای عملی و آمار دقیق استخراج شوند.
مدل کاوی که یک الگوریتم از دادههای شما ایجاد می کند می تواند اشکال مختلفی داشته باشد، از جمله:
· مجموعه ای از خوشهها که چگونگی ارتباط موارد موجود در یک مجموعه داده را توصیف می کند.
· درخت تصمیمی که یک نتیجه را پیشبینی و چگونگی تأثیر معیارهای مختلف بر آن نتیجه را توصیف میکند.
· یک مدل ریاضی که فروش را پیش بینی می کند.
· مجموعه ای از قوانین که نحوه گروه بندی محصولات را در یک تراکنش و احتمال خرید محصولات با هم توضیح می دهد.
الگوریتمهای ارائه شده در داده کاوی SQL Server محبوب ترین روشهای به خوبی تحقیق شده برای استخراج الگوها از دادهها هستند. برای مثال، خوشه بندی K-means یکی از قدیمی ترین الگوریتمهای خوشه بندی است و به طور گسترده در ابزارهای مختلف و با پیاده سازیها و گزینههای مختلف در دسترس است.
با این حال، پیادهسازی خاص خوشهبندی K-meansمورد استفاده در داده کاوی SQL Serverتوسط Microsoft Researchتوسعه داده و سپس برای عملکرد با SQL Server Analysis Servicesبهینهسازی شد. همه الگوریتمهای داده کاوی مایکروسافت را می توان به طور گسترده سفارشی کرد که با استفاده از APIهای ارائه شده کاملاً قابل برنامه ریزی هستند.
همچنین میتوانید از الگوریتمهایی استفاده کنید که با مشخصات OLE DB برای دادهکاوی مطابقت دارند، یا الگوریتمهای سفارشی را توسعه دهید که میتوانند به عنوان خدمات ثبت و سپس در چارچوب دادهکاوی SQL Server استفاده شوند.
انتخاب الگوریتم مناسب
انتخاب بهترین الگوریتم جهت استفاده برای یک کار تحلیلی خاص می تواند یک چالش باشد. در حالی که میتوانید از الگوریتمهای مختلف برای انجام یک کار تجاری استفاده کنید، هر الگوریتم نتیجه متفاوتی تولید میکند و برخی از الگوریتمها میتوانند بیش از یک نوع نتیجه ایجاد نمایند. برای مثال، میتوانید از الگوریتم مایکروسافت Decision Trees نه تنها برای پیشبینی، بلکه به عنوان راهی برای کاهش تعداد ستونهای یک مجموعه داده استفاده کنید، زیرا درخت تصمیم میتواند ستونهایی را شناسایی کند که بر مدل استخراج نهایی تأثیری ندارند.
انتخاب الگوریتم بر اساس نوع
داده کاوی SQL Server شامل انواع الگوریتم است:
الگوریتمهای طبقهبندی یک یا چند متغیر گسسته را بر اساس سایر ویژگیهای مجموعه داده پیشبینی میکنند.
الگوریتمهای رگرسیون یک یا چند متغیر عددی پیوسته مانند سود یا زیان را بر اساس سایر ویژگیهای مجموعه داده پیشبینی میکنند.
الگوریتمهای تقسیمبندی، دادهها را به گروهها یا خوشههایی از مواردی که ویژگیهای مشابهی دارند، تقسیم میکنند.
الگوریتمهای ارتباطی همبستگی بین ویژگیهای مختلف در یک مجموعه داده را پیدا می کنند. رایج ترین کاربرد این نوع الگوریتم برای ایجاد قوانینی است که می توان از آنها در تحلیل سبد بازار استفاده کرد.
الگوریتمهای تحلیل توالیها یا قسمتهای مکرر در دادهها را خلاصه میکنند، مانند یک سری کلیکها در یک وبسایت، یا یک سری رویدادهای گزارش قبل از تعمیر و نگهداری ماشین.
با این حال، دلیلی وجود ندارد که در راه حلهای خود به یک الگوریتم محدود شوید. تحلیلگران باتجربه گاهی از یک الگوریتم برای تعیین مؤثرترین ورودیها (یعنی متغیرها) استفاده می کنند و سپس از الگوریتم دیگری برای پیش بینی یک نتیجه خاص بر اساس آن دادهها استفاده می کنند.
داده کاوی SQL Server به شما امکان می دهد چندین مدل را بر روی یک ساختار استخراج واحد بسازید، بنابراین در یک راه حل داده کاوی می توانید از یک الگوریتم خوشه بندی، یک مدل درخت تصمیم و یک مدل ساده بیز برای دریافت دیدگاههای مختلف در مورد دادههای خود استفاده کنید.
همچنین ممکن است از چندین الگوریتم در یک راه حل واحد برای انجام وظایف جداگانه استفاده کنید، به عنوان مثال، می توانید از رگرسیون برای به دست آوردن پیش بینیهای مالی و از یک الگوریتم شبکه عصبی برای انجام تجزیه و تحلیل عوامل موثر بر پیش بینیها استفاده کنید.
انتخاب الگوریتم بر اساس وظیفه
پیش بینی یک ویژگی گسسته:
مشتریان را در لیست خریداران احتمالی به عنوان مشتریان بالقوه خوب یا ضعیف علامت گذاری کنید.
احتمال یک سرویس را محاسبه کنید.
r در 6 ماه آینده شکست خواهد خورد.
نتایج بیماری را دسته بندی کنید و عوامل مرتبط را بررسی کنید.
الگوریتم درخت تصمیم مایکروسافت
الگوریتم ساده مایکروسافت بیز
الگوریتم خوشه بندی مایکروسافت
الگوریتم شبکه عصبی مایکروسافت
پیش بینی یک ویژگی پیوسته:
پیش بینی فروش سال آینده
با توجه به روندهای تاریخی و فصلی گذشته، بازدیدکنندگان سایت را پیش بینی کنید.
با توجه به اطلاعات جمعیتی، یک امتیاز ریسک ایجاد کنید.
الگوریتم سری زمانی مایکروسافت
الگوریتم رگرسیون خطی مایکروسافت
پیش بینی یک دنباله:
تجزیه و تحلیل جریان کلیک وب سایت یک شرکت را انجام دهید.
تجزیه و تحلیل عوامل منجر به شکست سرور.
توالی فعالیتها را در طول ویزیتهای سرپایی ضبط و تجزیه و تحلیل کنید تا بهترین شیوهها را در مورد فعالیتهای رایج تدوین کنید. الگوریتم خوشه بندی توالی مایکروسافت
یافتن گروهی از اقلام رایج در معاملات:
از تحلیل سبد بازار برای تعیین جایگاه محصول استفاده کنید.
محصولات اضافی را برای خرید به مشتری پیشنهاد دهید.
تجزیه و تحلیل دادههای نظرسنجی از بازدیدکنندگان یک رویداد، برای یافتن اینکه کدام فعالیتها یا غرفهها با هم مرتبط هستند، تا فعالیتهای آینده را برنامه ریزی کنید. الگوریتم انجمن مایکروسافت
ابزارهای داده کاوی
Microsoft SQL Server SQL Server Analysis Services ابزارهای زیر را ارائه می دهد که می توانید برای ایجاد راه حل های داده کاوی از آنها استفاده کنید:
Data Mining Wizard در SQL Server Data Tools ایجاد ساختارهای استخراج و مدل های استخراج را با استفاده از منابع داده رابطه ای یا داده های چند بعدی در مکعب ها آسان می کند.
در ویزارد، دادهها را برای استفاده انتخاب میکنید و سپس تکنیکهای دادهکاوی خاصی مانند خوشهبندی، شبکههای عصبی یا مدلسازی سریهای زمانی را اعمال میکنید.
نمایشگرهای مدل در هر دو SQL Server Management Studio و SQL Server Data Tools برای کاوش مدلهای استخراج شما پس از ایجاد ارائه شدهاند. میتوانید مدلها را با استفاده از بینندههای متناسب با هر الگوریتم مرور کنید، یا با استفاده از نمایشگر محتوای مدل به تحلیل عمیقتر بپردازید.
Prediction Query Builder در SQL Server Management Studio و SQL Server Data Tools ارائه شده است تا به شما در ایجاد پرس و جوهای پیش بینی کمک کند. همچنین میتوانید دقت مدلها را در برابر مجموعه دادههای نگهدارنده یا دادههای خارجی آزمایش کنید یا از اعتبارسنجی متقابل برای ارزیابی کیفیت مجموعه دادههای خود استفاده کنید.
SQL Server Management Studio رابطی است که در آن راه حل های داده کاوی موجود را مدیریت می کنید که در نمونه ای از سرویس های تحلیل سرور SQL مستقر شده اند. شما می توانید ساختارها و مدل ها را برای به روز رسانی داده های موجود در آنها دوباره پردازش کنید.
SQL Server Integration Services حاوی ابزارهایی است که میتوانید برای پاک کردن دادهها، خودکار کردن کارهایی مانند ایجاد پیشبینیها و بهروزرسانی مدلها و ایجاد راهحلهای متن کاوی استفاده نمایید.
Data Mining Wizard
برای شروع ایجاد راه حل های داده کاوی از Data Mining Wizardاستفاده کنید. ویزارد سریع و آسان است و شما را در فرآیند ایجاد یک ساختار داده کاوی و یک مدل کاوی اولیه مرتبط راهنمایی می کند و شامل وظایف انتخاب نوع الگوریتم و منبع داده و تعریف داده های موردی مورد استفاده برای تجزیه و تحلیل است.
Data Mining Designer
بعد از اینکه با استفاده از Data Mining Wizard یک ساختار استخراج و مدل کاوی ایجاد کردید، می توانید از Data Mining Designer از SQL Server Data Tools یا SQL Server Management Studio برای کار با مدل ها و ساختارهای موجود استفاده کنید.
ویژگیهای ساختارهای استخراج را اصلاح کنید، ستونها را اضافه و نام مستعار ستون ایجاد کنید، روش binning یا توزیع مورد انتظار مقادیر را تغییر دهید.
مدل های جدید را به ساختار موجود اضافه کنید. مدلها را کپی ، ویژگیهای مدل یا ابردادهها را تغییر دهید، یا فیلترهایی را روی یک مدل استخراج تعریف کنید.
الگوها و قوانین درون مدل را مرور کنید. پیوندها یا درختان تصمیم را کاوش کنید.
بینندگان سفارشی برای هر زمان متفاوت از مدل ارائه میشوند تا به شما در تجزیه و تحلیل دادهها و کشف الگوهای آشکار شده توسط داده کاوی کمک کنند.
اعتبار مدل ها را با ایجاد نمودارهای بالابر یا تجزیه و تحلیل منحنی سود برای مدل ها انجام دهید. مدلها را با استفاده از ماتریسهای طبقهبندی مقایسه کنید، یا یک مجموعه داده و مدلهای آن را با استفاده از اعتبارسنجی متقاطع تأیید کنید.
پیشبینیها و پرس و جوهای محتوا را در برابر مدلهای استخراج موجود ایجاد کنید. پرس و جوهای یکباره بسازید یا پرس و جوهایی را برای ایجاد پیش بینی برای کل جداول داده های خارجی تنظیم کنید.
SQL Server Management Studio
پس از ایجاد و استقرار مدلهای استخراج در یک سرور، میتوانید از SQL Server Management Studio برای مدیریت پایگاهداده خدمات تحلیل سرور SQL که میزبان اشیاء دادهکاوی است استفاده کنید. همچنین میتوانید به انجام کارهایی که از مدل استفاده میکنند، مانند کاوش در مدلها، پردازش دادههای جدید و ایجاد پیشبینی ادامه دهید.
مدیریت استودیو همچنین دارای ویرایشگرهای پرس و جو است که می توانید از آنها برای طراحی و اجرای پرس و جوهای افزونه های داده کاوی (DMX) یا کار با اشیاء داده کاوی با استفاده از XMLA استفاده کنید.
خدمات یکپارچه سازی وظایف و تحولات داده کاوی
SQL Server Integration Services مؤلفه های زیادی را ارائه می دهد که از داده کاوی پشتیبانی می کند. برخی از ابزارها در خدمات یکپارچه سازی برای کمک به خودکارسازی وظایف رایج داده کاوی از جمله پیش بینی، ساخت مدل و پردازش طراحی شده اند. مثلا:
یک بسته خدمات یکپارچه ایجاد کنید که هر بار که مجموعه داده با مشتریان جدید به روز می شود، مدل را به طور خودکار به روز می کند.
انجام تقسیم بندی سفارشی یا نمونه برداری سفارشی از پرونده ها.
تولید خودکار مدلهای ارسال شده بر روی پارامترها.