عبدالرحمن حائری در دانشگاه علم و صنعت ایران در گروه مدیریت بهره وری مشغول به فعالیت آموزشی و پژوهشی می باشد. در این گروه گرایش مدیریت مهندسی از رشته مهندسی صنایع در مقاطع کارشناسی ارشد و دکتری تدریس می شود. یکی از دروس این گرایش درس «تحلیل داده های مهندسی» است که توسط عبدالرحمن حائری تدریس می شود. او این درس را بر اساس متدولوژی CRISP-DM ارائه می دهد. عبدالرحمن حائری معتقد است که در حوزه داده کاوی و یادگیری ماشین تمرکز بیشتر دروس تدریس شده در دانشگاه ها و همچنین دوره های آموزشی ارائه شده توسط موسسات آموزشی بر روی تکنیک ها و الگوریتم ها می باشد. در حالیکه برای بکارگیری این تکنیک ها و الگوریتم ها و بهره مندی سازمان ها از مزایای آن در عمل و به صورت واقعی و عینی لازم است تا اولا به زمینه ها، الزامات و پیش نیازهای لازم قبل از بکارگیری تکنیک های محاسباتی تحلیل داده و ثانیا به نیازمندی ها و ملاحظات بکارگیری نتایج بدست آمده از تحلیل های داده کاوی توجه شایسته شود. در غیر این صورت تحول جدی در این حوزه رخ نداده و آینده هم ادامه وضعیت فعلی خواهد بود که یا بسیاری از داده های سازمان ها و کسب و کارها اصلا تحلیل نمی شوند و یا اینکه حتی اگر مورد تحلیل هم قرار گیرند، شرکت ها از نتایج و پیامدهای این تحلیل ها در عمل منتفع نمی شوند. از این رو عبدالرحمن حائری این درس را به صورت یک دستورالعمل قدم به قدم در بیش از ۱۰۰ گام اجرایی و عملیاتی ارائه می دهد تا کلیه دانشجویان، دانش پذیران و مخاطبین و همچنین سازمان های هدف بتوانند به صورت اثربخش و کارا عملیات تحلیل داده را در سازمان ها اجرایی نمایند. رئوس مطالب ارائه شده در این درس به صورت زیر می باشد:
فاز اول: درک فضای کسبوکار (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:
اهداف کسبوکار / Business Objective or Business Direction
شاخص های کسب و کار (Business Measures)
اهداف تحلیل داده (Data Analysis Objective)
شاخص های تحلیل داده (Data Analysis Measures)
فرآیند رسیدن به اهداف
روش یا متدولوژی انجام فعالیت یا پروژه تحلیل داده
بیان گامها و مراحل
زمانبندی مراحل و فعالیت
مایلستون ها (Milestones)
منابع
منابع انسانی (متخصصان تحلیل داده)
منابع سختافزاری
منابع نرمافزاری (داشبورد)
دادهها
زیرساختهای فیزیکی (فضای دفتر و Office)
بررسی، مطالعه، الگوبرداری
فاز دوم: درک داده (Data Understanding) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:
تشخیص موجودیتها
تشخیص موجودیت محوری
تشخیص سایر موجودیتهای مرتبط در صورت نیاز
شناسایی ویژگیهای موجودیتهای مورد نظر (Field, Feature, Attribute)
تقسیمبندی ویژگیها:
تقسیمبندی ویژگیها براساس ارتباط با هدف کسبوکار (دیدگاه 1)
تقسیمبندی ویژگیها براساس قابلیت کنترل از دیدگاه مجری تحلیل داده (دیدگاه 2)
تقسیمبندی ویژگیها براساس قابلیت سیاستگذاری و ارائه راهکار (دیدگاه 3)
انتخاب یا گزینش ویژگیها / Feature Selection
انتخاب ویژگیها براساس Information Gain
انتخاب ویژگیها براساس سایر معیارها
تشخیص جهت مطلوب ویژگیها
تحلیل توصیفی:
محاسبه شاخصهای آماری
شاخصهای آماری حدی
شاخصهای آماری مرکزیت
شاخصهای آماری پراکندگی
توجه به رفتارهای زمان محور در دادهها
تحلیل پارتو (چند باره در صورت نیاز)
تحلیل 3M (Min, Mean / Median, Max)
تحلیل BMW (Best, Mean / Median, Worst)
تحلیل اثربخشی / Effectiveness
تحلیل کارایی / Efficiency
تحلیل در دو حالت کلی / Total و بخشی / Segment
انجام تحلیل بازهای / Interval Analysis
تحلیل قبل و بعد / Before-After
تحلیل قیف
تحلیل نرخ تبدیل Conversion Rate بین ابتدا و انتها قیف
تحلیل نرخ تبدیل بین بخشهای مختلف
تحلیل قیف معکوس
تحلیل دادههای فرآیندی
تشخیص ماهیت فرآیندی دادهها
تحلیل دادهها و ماهیت فرآیندی
تشخیص توالی فعالیتها
فاز سوم: آمادهسازی / پیشپردازش / پاکسازی دادهها – Data Preparation / Preprocessing / Cleaning / Manipulation (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:
مدیریت دادههای غیرعادی / None Ordinary
شناسایی دادههای غیرعادی
دستکاری و تغییر دادههای غیرعادی
مدیریت دادههای با فرمت نادرست
شناسایی دادههای با فرمت نادرست
دستکاری و تغییر دادههای با فرمت نادرست
مدیریت دادههای غلط
شناسایی دادههای غلط
دستکاری و تغییر دادههای غلط
مدیریت دادههای مفقود
شناسایی دادههای مفقود
دستکاری و تغییر دادههای مفقود
بررسی امکان حذف Record ها یا سطرهای با مقدار خالی یا مفقود
بررسی امکان حذف Field ها یا ستون های دارای مقدار خالی
انجام جایگزینی / Replacing
بررسی امکان جایگزینی با میانگین
بررسی امکان جایگزینی با میانه
بررسی امکان جایگزینی با مد
بررسی امکان جایگزینی با سایر
بررسی امکان جایگزینی براساس توزیع آماری
داده دور افتاده / Outlier – Noisy Data
شناسایی دادههای دور افتاده
شناسایی دادههای دور افتاده با استفاده از تکنیکهای آماری مرسوم
شناسایی دادههای دور افتاده با استفاده از الگوریتمهای خوشهبندی
تصمیمگیری درمورد شیوه برخورد، مدیریت و Handle کردن دادههای دور افتاده
فاز ۴ و ۵: مدلسازی و ارزیابی (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:
خوشهبندی / Clustering
خوشهبندی سلسله مراتبی
خوشهبندی غیرسلسله مراتبی
ارزیابی خوشههای بهدستآمده به ازای مقادیر مختلف k
انجام تغییر در مقدار k و بهروزرسانی آن حسب نیاز (در طول زمان)
تکرار الگوریتمها و بهدستآوردن خوشههای جدید برای k جدید
تصمیم به تلفیق / Merge یا تفکیک / Seperation خوشهها
رویکردهای Hybrid
کلاسبندی و درختهای تصمیم
انتخاب متغیر یا متغیرهای هدف / Target Variable
انتخاب متغیرهای ورودی / Input Variable
محاسبات برای بهدستآوردن شاخصهای آنتروپی و بهره اطلاعاتی / Gain
محاسبات و بهدستآوردن درختهای تصمیم
بهدستآوردن قواعد از درخت تصمیم براساس روابط عطفی و فصلی
ارزیابی میزان دقت، کاربردپذیری و سودمندی درخت تصمیم
محاسبه دقت / Accuracy برای درخت تصمیم برای دادههای آموزشی / Train
محاسبه دقت / Accuracy برای درخت تصمیم برای دادههای آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy دادههای آموزشی / Train و آزمون / Test
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی
ارزیابی میزان دقت، کاربردپذیری و سودمندی قواعد حاصل از درخت تصمیم
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای دادههای آموزشی / Train
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای دادههای آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy دادههای آموزشی / Train و آزمون / Test روی قواعد
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی روی قواعد
کشف قواعد باهمآیی
انتخاب متغیرها یا Field های تالی / Consequent
انتخاب متغیرها یا Field های مقدم / Antecedant
بهدستآوردن قواعد باهمآیی
ارزیابی و تحلیل میزان دقت، کاربردپذیری و سودمندی قواعد حاصل براساس شاخصهای:
شاخص پشتیبانی / Support
شاخص اطمینان / Confidence
شاخص قابلیت بالا بردن یا ارتقا / Lift
سایر شاخصها
فاز ۶: اجرا (Deployment) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:
ارائه پیشنهادات برای بهبود
پاسخ به سوالات مطرح شده و اهداف مورد نظر در فاز 1
آمادهسازی برای اجرا / Prepration for Execution
انجام تغییرات در صورت نیاز در طرح اجرایی
اجرا
ارزیابی اثربخشی / Evaluation of Effectiveness
انجام تغییرات در مدل، دادهها، انتخاب متغیرها، فازهای قبل و شروع دوباره چرخه