مجتبی میکائیل
مجتبی میکائیل
خواندن ۳ دقیقه·۲ سال پیش

داده کاوی – قسمت 1 – کریسپ یا CRISP چیست ؟



CRISP = Cross-industry standard process for data mining

ترجمه ی فارسی این عبارت میشه :

" فرآیند استاندارد صنعتی متقاطع داده کاوی "

که همون بهتر از فارسیش استفاده نکنیم و بگیم کریسپ !

کریسپ به صورت کلی یک فرآینده که برای انجام دادن پروژه های دیتا ماینینگ ( داده کاوی ) مورد استفاده قرار میگیره.

یعنی باید به صورت گام به گام با این فرآیند پیش ببریم تا بتونیم یک پروژه داده کاوی رو به انجام برسونیم. ( البته هیچ وقت بایدی در کار نیست و علت اینکه از این فرآیند استفاده میکنیم اینه که بتونیم پروژه رو به صورت گام به گام و اصولی پیش ببریم )

این فرآیند شامل یک سری مراحل هست. فرض کنید به شما یک پروژه داده کاوی دادن و از شما میخوان که انجامش بدید . این مراحل رو باید انجام بدید.



  • مرحله 1 ( درک بیزینس ) یا Business Understanding :

اولین قدم اینه که شما درک کنید اون شرکت یا کسب و کاری که پروژه رو به شما داده کلا کارش چیه ؟ یه فهم کلی از پروژه داشته باشید . یعنی چی ؟ یعنی مثلا اگر شرکت X از شما یه پروژه داده کاوی خواست بفهمید شرکت X کلا کارش چیه و این که اون بخشی از شرکت X که قراره پروژه رو انجام بدید براش روش کارش به چه صورته.



  • مرحله 2 ( درک داده ) یا Data Understanding :

قدم بعدی اینه که اون داده هایی که قراره باهاش سر و کار داشته باشید رو بشناسید. همونطور که میدونید توی داده کاوی شما قراره یک سری مدل طراحی کنید که از داده های در دسترستون الگویی رو کشف کنه یا نتیجه گیری خاصی رو انجام بده ، برای همین نیاز هست تا بدونید اون داده هاتون به چه شکله. درکتون از داده هایی که دارید هرچقدر دقیق تر ، خاص تر ، مطمئن تر و کامل تر باشه توی مراحلی بعدی به شما کمک شایان تری میکنه. معمولا توی این مرحله نوع داده ها به صورت کلی ( متغیر گسسته اسمی، گسسته ترکیبی و ... اینا رو بعدا توضیح میدم ) و همینطور کمیت های آماری مختلف رو روی داده ها به دست میاد. ( میانگین، میانه، فراوانی و ... )



  • مرحله 3 ( آماده کردن داده ها ) یا Data Preparation :

نکته ای که وجود داره اینه که معمولا داده هایی که به شما میدن برای شروع کار فرمت بندی تر و تمیزی نداره.

واسه همین توی این مرحله به وسیله ی یه سری از تکنیک هایی که یاد میگیرید داده ها رو تر و تمیز میکنید که برای مراحل بعدی بتونید بهتر باهاشون کار کنید .

مثلا فرض کنید داده های مربوط به خرید های 1 میلیون کاربر ( خرید های موفق و ناموفق ) رو دارید ولی قراره نتیجه گیریتون از خرید های موفق مربوط به 1 میلیون کاربر باشه. پس باید اون ردیف های داده ای که مربوط به خریدهای ناموفق هست رو از مجموعه داده هاتون حذف کنید.



  • مرحله 4 ( مدلسازی ) یا Modeling :

توی مرحله ی قبلی داده هاتون رو تمیز و مرتب کردید. توی مرحله 4 شما باید به وسیله ی یک سری الگوریتم ها ( که بعدا یاد میگیرید ) یک سری مدلهای هوش مصنوعی ایجاد کنید که بتونه از داده هاتون نتیجه گیری کنه و یا یک سری الگوها رو پیدا کنه.



  • مرحله 5 ( ارزیابی مدل ) یا Evaluation :

توی این مرحله نتایجی رو که از مدل ( اینکه مدل چی هست رو میفهمید نگران نباشید) ایجاده شده توی مرحله قبلی به دست آوردید ارزیابی میکنید به روش های مختلف تا بتونید بفهمید مدلتون چقدر کارایی داره و چقدر خوب کار میکنه.



مرحله 6 ( استقرار) یا Deployment :

هر مدلی که طراحی کرده باشید در صورتی که کارایی خوبی داشته باشه باید توی محیط عملیاتی یا Production قرار بگیره تا بتونه روی پروژه اصلی نتیجه گیری هاش رو انجام بده. به وسیله یک سری ابزارها یاد میگیرید تا مدل ایجاد شدتون رو روی پروژه اصلی استقرار بدید.

برای خوندن مقالات بیشتر میتونید به وب سایت من سر بزنید :

https://codemichael.ir




#هوش_مصنوعی #داده_کاوی #یادگیری_ماشین #علم_داده #برنامه_نویسی #کریسپ #crisp

#کدمایکل #مجتبی_میکائیل

برنامه نویسیهوش مصنوعییادگیری ماشینکریسپ crisp
برنامه نویسی ، هوش مصنوعی و ...
شاید از این پست‌ها خوشتان بیاید