خواندن ۶ دقیقه·۲ سال پیش

دکتر عبدالرحمن حائری - سرفصل درس تحلیل داده

عبدالرحمن حائری در دانشگاه علم و صنعت ایران در گروه مدیریت بهره وری مشغول به فعالیت آموزشی و پژوهشی می باشد. در این گروه گرایش مدیریت مهندسی از رشته مهندسی صنایع در مقاطع کارشناسی ارشد و دکتری تدریس می شود. یکی از دروس این گرایش درس «تحلیل داده های مهندسی» است که توسط عبدالرحمن حائری تدریس می شود. او این درس را بر اساس متدولوژی CRISP-DM ارائه می دهد. عبدالرحمن حائری معتقد است که در حوزه داده کاوی و یادگیری ماشین تمرکز بیشتر دروس تدریس شده در دانشگاه ها و همچنین دوره های آموزشی ارائه شده توسط موسسات آموزشی بر روی تکنیک ها و الگوریتم ها می باشد. در حالیکه برای بکارگیری این تکنیک ها و الگوریتم ها و بهره مندی سازمان ها از مزایای آن در عمل و به صورت واقعی و عینی لازم است تا اولا به زمینه ها، الزامات و پیش نیازهای لازم قبل از بکارگیری تکنیک های محاسباتی تحلیل داده و ثانیا به نیازمندی ها و ملاحظات بکارگیری نتایج بدست آمده از تحلیل های داده کاوی توجه شایسته شود. در غیر این صورت تحول جدی در این حوزه رخ نداده و آینده هم ادامه وضعیت فعلی خواهد بود که یا بسیاری از داده های سازمان ها و کسب و کارها اصلا تحلیل نمی شوند و یا اینکه حتی اگر مورد تحلیل هم قرار گیرند، شرکت ها از نتایج و پیامدهای این تحلیل ها در عمل منتفع نمی شوند. از این رو عبدالرحمن حائری این درس را به صورت یک دستورالعمل قدم به قدم در بیش از ۱۰۰ گام اجرایی و عملیاتی ارائه می دهد تا کلیه دانشجویان، دانش پذیران و مخاطبین و همچنین سازمان های هدف بتوانند به صورت اثربخش و کارا عملیات تحلیل داده را در سازمان ها اجرایی نمایند. رئوس مطالب ارائه شده در این درس به صورت زیر می باشد:

فاز اول: درک فضای کسب‌وکار (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

اهداف کسب‌وکار / Business Objective or Business Direction

شاخص های کسب و کار (Business Measures)

اهداف تحلیل داده (Data Analysis Objective)

شاخص های تحلیل داده (Data Analysis Measures)

فرآیند رسیدن به اهداف

روش یا متدولوژی انجام فعالیت یا پروژه تحلیل داده
بیان گام‌ها و مراحل
زمان‌بندی مراحل و فعالیت
مایلستون ها (Milestones)

منابع

منابع انسانی (متخصصان تحلیل داده)
منابع سخت‌افزاری
منابع نرم‌افزاری (داشبورد)
داده‌ها
زیرساخت‌های فیزیکی (فضای دفتر و Office)

بررسی، مطالعه، الگوبرداری

فاز دوم: درک داده (Data Understanding) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

تشخیص موجودیت‌ها

تشخیص موجودیت محوری
تشخیص سایر موجودیت‌های مرتبط در صورت نیاز

شناسایی ویژگی‌های موجودیت‌های مورد نظر (Field, Feature, Attribute)

تقسیم‌بندی ویژگی‌ها:

تقسیم‌بندی ویژگی‌ها براساس ارتباط با هدف کسب‌وکار (دیدگاه 1)
تقسیم‌بندی ویژگی‌ها براساس قابلیت کنترل از دیدگاه مجری تحلیل داده (دیدگاه 2)
تقسیم‌بندی ویژگی‌ها براساس قابلیت سیاست‌گذاری و ارائه راهکار (دیدگاه 3)

انتخاب یا گزینش ویژگی‌ها / Feature Selection

انتخاب ویژگی‌ها براساس Information Gain
انتخاب ویژگی‌ها براساس سایر معیارها

تشخیص جهت مطلوب ویژگی‌ها

تحلیل توصیفی:

محاسبه شاخص‌های آماری
شاخص‌های آماری حدی
شاخص‌های آماری مرکزیت
شاخص‌های آماری پراکندگی
توجه به رفتارهای زمان محور در داده‌ها
تحلیل پارتو (چند باره در صورت نیاز)
تحلیل 3M (Min, Mean / Median, Max)
تحلیل BMW (Best, Mean / Median, Worst)
تحلیل اثربخشی / Effectiveness
تحلیل کارایی / Efficiency
تحلیل در دو حالت کلی / Total و بخشی / Segment
انجام تحلیل بازه‌ای / Interval Analysis
تحلیل قبل و بعد / Before-After
تحلیل قیف
تحلیل نرخ تبدیل Conversion Rate بین ابتدا و انتها قیف
تحلیل نرخ تبدیل بین بخش‌های مختلف
تحلیل قیف معکوس

تحلیل داده‌های فرآیندی

تشخیص ماهیت فرآیندی داده‌ها
تحلیل داده‌ها و ماهیت فرآیندی
تشخیص توالی فعالیت‌ها

فاز سوم: آماده‌سازی / پیش‌پردازش / پاکسازی داده‌ها – Data Preparation / Preprocessing / Cleaning / Manipulation (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

مدیریت داده‌های غیرعادی / None Ordinary

شناسایی داده‌های غیرعادی
دستکاری و تغییر داده‌های غیرعادی

مدیریت داده‌های با فرمت نادرست

شناسایی داده‌های با فرمت نادرست
دستکاری و تغییر داده‌های با فرمت نادرست

مدیریت داده‌های غلط

شناسایی داده‌های غلط
دستکاری و تغییر داده‌های غلط

مدیریت داده‌های مفقود

شناسایی داده‌های مفقود
دستکاری و تغییر داده‌های مفقود
بررسی امکان حذف Record ها یا سطرهای با مقدار خالی یا مفقود
بررسی امکان حذف Field ها یا ستون های دارای مقدار خالی
انجام جایگزینی / Replacing
بررسی امکان جایگزینی با میانگین
بررسی امکان جایگزینی با میانه
بررسی امکان جایگزینی با مد
بررسی امکان جایگزینی با سایر
بررسی امکان جایگزینی براساس توزیع آماری

داده دور افتاده / Outlier – Noisy Data

شناسایی داده‌های دور افتاده
شناسایی داده‌های دور افتاده با استفاده از تکنیک‌های آماری مرسوم
شناسایی داده‌های دور افتاده با استفاده از الگوریتم‌های خوشه‌بندی
تصمیم‌گیری درمورد شیوه برخورد، مدیریت و Handle کردن داده‌های دور افتاده

فاز ۴ و ۵: مدلسازی و ارزیابی (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

خوشه‌بندی / Clustering

خوشه‌بندی سلسله مراتبی
خوشه‌بندی غیرسلسله مراتبی
ارزیابی خوشه‌های به‌دست‌آمده به ازای مقادیر مختلف k
انجام تغییر در مقدار k و به‌روزرسانی آن حسب نیاز (در طول زمان)
تکرار الگوریتم‌ها و به‌دست‌آوردن خوشه‌های جدید برای k جدید
تصمیم به تلفیق / Merge یا تفکیک / Seperation خوشه‌ها
رویکرد‌های Hybrid

کلاس‌بندی و درخت‌های تصمیم

انتخاب متغیر یا متغیرهای هدف / Target Variable
انتخاب متغیرهای ورودی / Input Variable
محاسبات برای به‌دست‌آوردن شاخص‌های آنتروپی و بهره اطلاعاتی / Gain
محاسبات و به‌دست‌آوردن درخت‌های تصمیم
به‌دست‌آوردن قواعد از درخت تصمیم براساس روابط عطفی و فصلی
ارزیابی میزان دقت، کاربردپذیری و سودمندی درخت تصمیم
محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آموزشی / Train
محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی
ارزیابی میزان دقت، کاربردپذیری و سودمندی قواعد حاصل از درخت تصمیم
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آموزشی / Train
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test روی قواعد
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی روی قواعد

کشف قواعد باهم‌آیی

انتخاب متغیرها یا Field های تالی / Consequent
انتخاب متغیرها یا Field های مقدم / Antecedant
به‌دست‌آوردن قواعد باهم‌آیی
ارزیابی و تحلیل میزان دقت، کاربردپذیری و سودمندی قواعد حاصل براساس شاخص‌های:
شاخص پشتیبانی / Support
شاخص اطمینان / Confidence
شاخص قابلیت بالا بردن یا ارتقا / Lift
سایر شاخص‌ها

فاز ۶: اجرا (Deployment) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

ارائه پیشنهادات برای بهبود

پاسخ به سوالات مطرح‌ شده و اهداف مورد نظر در فاز 1

آماده‌سازی برای اجرا / Prepration for Execution

انجام تغییرات در صورت نیاز در طرح اجرایی

اجرا

ارزیابی اثربخشی / Evaluation of Effectiveness

انجام تغییرات در مدل، داده‌ها، انتخاب متغیرها، فازهای قبل و شروع دوباره چرخه

پیشنهاد پروژه‌های جدید برای آینده

مهندسی صنایعدانشگاه علم و صنعت ایرانتحلیل دادهداده کاوی

عبدالرحمن حائری

دکتری مهندسی صنایع و عضو هیات علمی دانشگاه علم و صنعت ایران

شاید از این پست‌ها خوشتان بیاید

عبدالرحمن حائری

خواندن ۶ دقیقه·۲ سال پیش

دکتر عبدالرحمن حائری - سرفصل درس تحلیل داده

فاز اول: درک فضای کسب‌وکار (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

اهداف کسب‌وکار / Business Objective or Business Direction

شاخص های کسب و کار (Business Measures)

اهداف تحلیل داده (Data Analysis Objective)

شاخص های تحلیل داده (Data Analysis Measures)

فرآیند رسیدن به اهداف

روش یا متدولوژی انجام فعالیت یا پروژه تحلیل داده
بیان گام‌ها و مراحل
زمان‌بندی مراحل و فعالیت
مایلستون ها (Milestones)

منابع

منابع انسانی (متخصصان تحلیل داده)
منابع سخت‌افزاری
منابع نرم‌افزاری (داشبورد)
داده‌ها
زیرساخت‌های فیزیکی (فضای دفتر و Office)

بررسی، مطالعه، الگوبرداری

فاز دوم: درک داده (Data Understanding) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

تشخیص موجودیت‌ها

تشخیص موجودیت محوری
تشخیص سایر موجودیت‌های مرتبط در صورت نیاز

شناسایی ویژگی‌های موجودیت‌های مورد نظر (Field, Feature, Attribute)

تقسیم‌بندی ویژگی‌ها:

تقسیم‌بندی ویژگی‌ها براساس ارتباط با هدف کسب‌وکار (دیدگاه 1)
تقسیم‌بندی ویژگی‌ها براساس قابلیت کنترل از دیدگاه مجری تحلیل داده (دیدگاه 2)
تقسیم‌بندی ویژگی‌ها براساس قابلیت سیاست‌گذاری و ارائه راهکار (دیدگاه 3)

انتخاب یا گزینش ویژگی‌ها / Feature Selection

انتخاب ویژگی‌ها براساس Information Gain
انتخاب ویژگی‌ها براساس سایر معیارها

تشخیص جهت مطلوب ویژگی‌ها

تحلیل توصیفی:

محاسبه شاخص‌های آماری
شاخص‌های آماری حدی
شاخص‌های آماری مرکزیت
شاخص‌های آماری پراکندگی
توجه به رفتارهای زمان محور در داده‌ها
تحلیل پارتو (چند باره در صورت نیاز)
تحلیل 3M (Min, Mean / Median, Max)
تحلیل BMW (Best, Mean / Median, Worst)
تحلیل اثربخشی / Effectiveness
تحلیل کارایی / Efficiency
تحلیل در دو حالت کلی / Total و بخشی / Segment
انجام تحلیل بازه‌ای / Interval Analysis
تحلیل قبل و بعد / Before-After
تحلیل قیف
تحلیل نرخ تبدیل Conversion Rate بین ابتدا و انتها قیف
تحلیل نرخ تبدیل بین بخش‌های مختلف
تحلیل قیف معکوس

تحلیل داده‌های فرآیندی

تشخیص ماهیت فرآیندی داده‌ها
تحلیل داده‌ها و ماهیت فرآیندی
تشخیص توالی فعالیت‌ها

فاز سوم: آماده‌سازی / پیش‌پردازش / پاکسازی داده‌ها – Data Preparation / Preprocessing / Cleaning / Manipulation (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

مدیریت داده‌های غیرعادی / None Ordinary

شناسایی داده‌های غیرعادی
دستکاری و تغییر داده‌های غیرعادی

مدیریت داده‌های با فرمت نادرست

شناسایی داده‌های با فرمت نادرست
دستکاری و تغییر داده‌های با فرمت نادرست

مدیریت داده‌های غلط

شناسایی داده‌های غلط
دستکاری و تغییر داده‌های غلط

مدیریت داده‌های مفقود

شناسایی داده‌های مفقود
دستکاری و تغییر داده‌های مفقود
بررسی امکان حذف Record ها یا سطرهای با مقدار خالی یا مفقود
بررسی امکان حذف Field ها یا ستون های دارای مقدار خالی
انجام جایگزینی / Replacing
بررسی امکان جایگزینی با میانگین
بررسی امکان جایگزینی با میانه
بررسی امکان جایگزینی با مد
بررسی امکان جایگزینی با سایر
بررسی امکان جایگزینی براساس توزیع آماری

داده دور افتاده / Outlier – Noisy Data

شناسایی داده‌های دور افتاده
شناسایی داده‌های دور افتاده با استفاده از تکنیک‌های آماری مرسوم
شناسایی داده‌های دور افتاده با استفاده از الگوریتم‌های خوشه‌بندی
تصمیم‌گیری درمورد شیوه برخورد، مدیریت و Handle کردن داده‌های دور افتاده

فاز ۴ و ۵: مدلسازی و ارزیابی (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

خوشه‌بندی / Clustering

خوشه‌بندی سلسله مراتبی
خوشه‌بندی غیرسلسله مراتبی
ارزیابی خوشه‌های به‌دست‌آمده به ازای مقادیر مختلف k
انجام تغییر در مقدار k و به‌روزرسانی آن حسب نیاز (در طول زمان)
تکرار الگوریتم‌ها و به‌دست‌آوردن خوشه‌های جدید برای k جدید
تصمیم به تلفیق / Merge یا تفکیک / Seperation خوشه‌ها
رویکرد‌های Hybrid

کلاس‌بندی و درخت‌های تصمیم

انتخاب متغیر یا متغیرهای هدف / Target Variable
انتخاب متغیرهای ورودی / Input Variable
محاسبات برای به‌دست‌آوردن شاخص‌های آنتروپی و بهره اطلاعاتی / Gain
محاسبات و به‌دست‌آوردن درخت‌های تصمیم
به‌دست‌آوردن قواعد از درخت تصمیم براساس روابط عطفی و فصلی
ارزیابی میزان دقت، کاربردپذیری و سودمندی درخت تصمیم
محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آموزشی / Train
محاسبه دقت / Accuracy برای درخت تصمیم برای داده‌های آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی
ارزیابی میزان دقت، کاربردپذیری و سودمندی قواعد حاصل از درخت تصمیم
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آموزشی / Train
محاسبه دقت / Accuracy برای قواعد درخت تصمیم برای داده‌های آزمون / Test
ارزیابی، مقایسه و تحلیل دقت / Accuracy داده‌های آموزشی / Train و آزمون / Test روی قواعد
در صورت نیاز انجام اقدامات برای تغییر در مدل یا تغییر در Partition بندی روی قواعد

کشف قواعد باهم‌آیی

انتخاب متغیرها یا Field های تالی / Consequent
انتخاب متغیرها یا Field های مقدم / Antecedant
به‌دست‌آوردن قواعد باهم‌آیی
ارزیابی و تحلیل میزان دقت، کاربردپذیری و سودمندی قواعد حاصل براساس شاخص‌های:
شاخص پشتیبانی / Support
شاخص اطمینان / Confidence
شاخص قابلیت بالا بردن یا ارتقا / Lift
سایر شاخص‌ها

فاز ۶: اجرا (Deployment) (از درس تحلیل داده های مهندسی دکتر عبدالرحمن حائری) شامل:

ارائه پیشنهادات برای بهبود

پاسخ به سوالات مطرح‌ شده و اهداف مورد نظر در فاز 1

آماده‌سازی برای اجرا / Prepration for Execution

انجام تغییرات در صورت نیاز در طرح اجرایی

اجرا

ارزیابی اثربخشی / Evaluation of Effectiveness

انجام تغییرات در مدل، داده‌ها، انتخاب متغیرها، فازهای قبل و شروع دوباره چرخه

پیشنهاد پروژه‌های جدید برای آینده

مهندسی صنایعدانشگاه علم و صنعت ایرانتحلیل دادهداده کاوی

عبدالرحمن حائری

دکتری مهندسی صنایع و عضو هیات علمی دانشگاه علم و صنعت ایران

شاید از این پست‌ها خوشتان بیاید