درخت تصمیم گیری شما رو با یک تصمیم سخت رو به رو میکنه .یک درخت عمیق با تعداد برگ های زیاد overfit میشه چون هر پیش بینی ناشی از تعداد کمی خونه که در اون برگ وجود دارن انجام میشه اما در مقابل یک درخت با تعداد برگ های کم نیز باعث میشه پیش بینی درستی نداشته باشید چون نمیتونه بین داده های خام الگو خاصی رو پیدا کنه وتمایز قائل بشه.
حتی امروزه هم خیلی از تکنیک های مدلسازی با تنش بین overfitting و underfitting مواجهه میشن .ولی بعضی از مدل ها ایده های خلاقانه ای برای برطرف کردن این مشکل دارند.به عنوان مثال ما به جنگل تصادفی نگاهی می اندازیم.
جنگل تصادفی از تعداد زیادی درخت استفاده میکنه و پیش بینی رو بر اساس میانگین گرفتن از نتایج به دست اومده از پیش بینی های این درخت ها استخراج میکنه و به طور کلی دقت و پیش بینی بهتری نسبت به درخت تصمیم گیری داره و با پارامتر های پیش فرض به خوبی کار میکنه اگه به مدلسازی ادامه بدید میتونید مدل های بیشتر با عملکرد بهتر یاد بگیرید اما بسیاری از این مدل ها به دریافت پارامتر مناسب حساسن.
شما تا الان کد های زیاد ی رو برای لود کردن دیتا دیدید. در پایان هر بار لود کردن دیتا شما متغییر های زیر رو داید :
ما جنگل تصادفیمون رو به همون روشی که درخت تصمیم گیری رو ساختیم میسازیم و در اینجا هم از کتابخونه scikit-learn استفاده میکنیم.
میتونید آموزش اصلی رو از اینجا ببینید .