عبدالرحمن حائری
عبدالرحمن حائری
خواندن ۶ دقیقه·۲ ماه پیش

دکتر عبدالرحمن حائری - سرفصل درس تحلیل داده

عبدالرحمن حائری در دانشگاه علم و صنعت ایران در گروه مدیریت بهره وری مشغول به فعالیت آموزشی و پژوهشی می باشد. در این گروه گرایش مدیریت مهندسی از رشته مهندسی صنایع در مقاطع کارشناسی ارشد و دکتری تدریس می شود. یکی از دروس این گرایش درس «تحلیل داده های مهندسی» است که توسط عبدالرحمن حائری تدریس می شود. او این درس را بر اساس متدولوژی CRISP-DM ارائه می دهد. عبدالرحمن حائری معتقد است که در حوزه داده کاوی و یادگیری ماشین تمرکز بیشتر دروس تدریس شده در دانشگاه ها و همچنین دوره های آموزشی ارائه شده توسط موسسات آموزشی بر روی تکنیک ها و الگوریتم ها می باشد. در حالیکه برای بکارگیری این تکنیک ها و الگوریتم ها و بهره مندی سازمان ها از مزایای آن در عمل و به صورت واقعی و عینی لازم است تا اولا به زمینه ها، الزامات و پیش نیازهای لازم قبل از بکارگیری تکنیک های محاسباتی تحلیل داده و ثانیا به نیازمندی ها و ملاحظات بکارگیری نتایج بدست آمده از تحلیل های داده کاوی توجه شایسته شود. در غیر این صورت تحول جدی در این حوزه رخ نداده و آینده هم ادامه وضعیت فعلی خواهد بود که یا بسیاری از داده های سازمان ها و کسب و کارها اصلا تحلیل نمی شوند و یا اینکه حتی اگر مورد تحلیل هم قرار گیرند، شرکت ها از نتایج و پیامدهای این تحلیل ها در عمل منتفع نمی شوند. از این رو عبدالرحمن حائری این درس را به صورت یک دستورالعمل قدم به قدم در بیش از ۱۰۰ گام اجرایی و عملیاتی ارائه می دهد تا کلیه دانشجویان، دانش پذیران و مخاطبین و همچنین سازمان های هدف بتوانند به صورت اثربخش و کارا عملیات تحلیل داده را در سازمان ها اجرایی نمایند. رئوس مطالب ارائه شده در این درس به صورت زیر می باشد:


فاز اول: درک فضای کسب‌وکار (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

اهداف کسب‌وکار / Business Objective or Business Direction

شاخص های کسب و کار (Business Measures)

اهداف تحلیل داده (Data Analysis Objective)

شاخص های تحلیل داده (Data Analysis Measures)

فرآیند رسیدن به اهداف

  • روش یا متدولوژی انجام فعالیت یا پروژه تحلیل داده
  • بیان گام‌ها و مراحل
  • زمان‌بندی مراحل و فعالیت
  • مایلستون ها (Milestones)

منابع

  • منابع انسانی (متخصصان تحلیل داده)
  • منابع سخت‌افزاری
  • منابع نرم‌افزاری (داشبورد)
  • داده‌ها
  • زیرساخت‌های فیزیکی (فضای دفتر و Office)

بررسی، مطالعه، الگوبرداری


فاز دوم: درک داده (Data Understanding) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

تشخیص موجودیت‌ها

  • تشخیص موجودیت محوری
  • تشخیص سایر موجودیت‌های مرتبط در صورت نیاز

شناسایی ویژگی‌های موجودیت‌های مورد نظر (Field, Feature, Attribute)

تقسیم‌بندی ویژگی‌ها:

  • تقسیم‌بندی ویژگی‌ها براساس ارتباط با هدف کسب‌وکار (دیدگاه 1)
  • تقسیم‌بندی ویژگی‌ها براساس قابلیت کنترل از دیدگاه مجری تحلیل داده (دیدگاه 2)
  • تقسیم‌بندی ویژگی‌ها براساس قابلیت سیاست‌گذاری و ارائه راهکار (دیدگاه 3)

انتخاب یا گزینش ویژگی‌ها / Feature Selection

  • انتخاب ویژگی‌ها براساس Information Gain
  • انتخاب ویژگی‌ها براساس سایر معیارها

تشخیص جهت مطلوب ویژگی‌ها

تحلیل توصیفی:

  • محاسبه شاخص‌های آماری
  • شاخص‌های آماری حدی
  • شاخص‌های آماری مرکزیت
  • شاخص‌های آماری پراکندگی
  • توجه به رفتارهای زمان محور در داده‌ها
  • تحلیل پارتو (چند باره در صورت نیاز)
  • تحلیل 3M (Min, Mean / Median, Max)
  • تحلیل BMW (Best, Mean / Median, Worst)
  • تحلیل اثربخشی / Effectiveness
  • تحلیل کارایی / Efficiency
  • تحلیل در دو حالت کلی / Total و بخشی / Segment
  • انجام تحلیل بازه‌ای / Interval Analysis
  • تحلیل قبل و بعد / Before-After
  • تحلیل قیف
  • تحلیل نرخ تبدیل Conversion Rate بین ابتدا و انتها قیف
  • تحلیل نرخ تبدیل بین بخش‌های مختلف
  • تحلیل قیف معکوس

تحلیل داده‌های فرآیندی

  • تشخیص ماهیت فرآیندی داده‌ها
  • تحلیل داده‌ها و ماهیت فرآیندی
  • تشخیص توالی فعالیت‌ها

فاز سوم: آماده‌سازی / پیش‌پردازش / پاکسازی داده‌ها – Data Preparation / Preprocessing / Cleaning / Manipulation (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

مدیریت داده‌های غیرعادی / None Ordinary

  • شناسایی داده‌های غیرعادی
  • دستکاری و تغییر داده‌های غیرعادی

مدیریت داده‌های با فرمت نادرست

  • شناسایی داده‌های با فرمت نادرست
  • دستکاری و تغییر داده‌های با فرمت نادرست

مدیریت داده‌های غلط

  • شناسایی داده‌های غلط
  • دستکاری و تغییر داده‌های غلط

مدیریت داده‌های مفقود

  • شناسایی داده‌های مفقود
  • دستکاری و تغییر داده‌های مفقود
  • بررسی امکان حذف Record ها یا سطرهای با مقدار خالی یا مفقود
  • بررسی امکان حذف Field ها یا ستون های دارای مقدار خالی
  • انجام جایگزینی / Replacing
  • بررسی امکان جایگزینی با میانگین
  • بررسی امکان جایگزینی با میانه
  • بررسی امکان جایگزینی با مد
  • بررسی امکان جایگزینی با سایر
  • بررسی امکان جایگزینی براساس توزیع آماری

داده دور افتاده / Outlier – Noisy Data

  • شناسایی داده‌های دور افتاده
  • شناسایی داده‌های دور افتاده با استفاده از تکنیک‌های آماری مرسوم
  • شناسایی داده‌های دور افتاده با استفاده از الگوریتم‌های خوشه‌بندی
  • تصمیم‌گیری درمورد شیوه برخورد، مدیریت و Handle کردن داده‌های دور افتاده

فاز ۴ و ۵: مدلسازی و ارزیابی (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

خوشه‌بندی / Clustering

  • خوشه‌بندی سلسله مراتبی
  • خوشه‌بندی غیرسلسله مراتبی
  • ارزیابی خوشه‌های به‌دست‌آمده به ازای مقادیر مختلف k
  • انجام تغییر در مقدار k و به‌روزرسانی آن حسب نیاز (در طول زمان)
  • تکرار الگوریتم‌ها و به‌دست‌آوردن خوشه‌های جدید برای k جدید
  • تصمیم به تلفیق / Merge یا تفکیک / Seperation خوشه‌ها
  • رویکرد‌های Hybrid

کلاس‌بندی و درخت‌های تصمیم

  • انتخاب متغیر یا متغیرهای هدف / Target Variable
  • انتخاب متغیرهای ورودی / Input Variable
  • محاسبات برای به‌دست‌آوردن شاخص‌های آنتروپی و بهره اطلاعاتی / Gain
  • محاسبات و به‌دست‌آوردن درخت‌های تصمیم
  • به‌دست‌آوردن قواعد از درخت تصمیم براساس روابط عطفی و فصلی
  • ارزیابی میزان دقت، کاربردپذیری و سودمندی درخت تصمیم
  • محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آموزشی / Train
  • محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آزمون / Test
  • ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test
  • در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی
  • ارزیابی میزان دقت، کاربردپذیری و سودمندی قواعد حاصل از درخت تصمیم
  • محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آموزشی / Train
  • محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آزمون / Test
  • ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test روی قواعد
  • در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی روی قواعد

کشف قواعد باهم‌آیی

  • انتخاب متغیرها یا Field های تالی / Consequent
  • انتخاب متغیرها یا Field های مقدم / Antecedant
  • به‌دست‌آوردن قواعد باهم‌آیی
  • ارزیابی و تحلیل میزان دقت، کاربردپذیری و سودمندی قواعد حاصل براساس شاخص‌های:
  • شاخص پشتیبانی / Support
  • شاخص اطمینان / Confidence
  • شاخص قابلیت بالا بردن یا ارتقا / Lift
  • سایر شاخص‌ها

فاز ۶: اجرا (Deployment) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

ارائه پیشنهادات برای بهبود

پاسخ به سوالات مطرح‌ شده و اهداف مورد نظر در فاز 1

آماده‌سازی برای اجرا / Prepration for Execution

انجام تغییرات در صورت نیاز در طرح اجرایی

اجرا

ارزیابی اثربخشی / Evaluation of Effectiveness

انجام تغییرات در مدل، داده‌ها، انتخاب متغیرها، فازهای قبل و شروع دوباره چرخه

پیشنهاد پروژه‌های جدید برای آینده

مهندسی صنایعدانشگاه علم و صنعت ایرانتحلیل دادهداده کاوی
دکتری مهندسی صنایع و عضو هیات علمی دانشگاه علم و صنعت ایران
شاید از این پست‌ها خوشتان بیاید