داده های ما دارای متغییر های زیادی بود و نمیتوانیم همه داده ها را بررسی کنیم یا چاپ کنیم تا بفهمیم چه اتفاقی داره میفته چطوری این حجم عظیم داده رو به چیزی ک میتونیم درک کنیم کاهش بدهیم ؟
ما با انتخاب چند متغییر به صورت شهودی شروع میکنیم و بعدا یاد میگیریم تا از تکنیک های آماری برای اولویت بندی خودکار متغییر ها استفاده کنیم .
برای انتخاب متغیر ها /ستون ها باید فهرستی از تمامی ستون های داده ببینیم این کار با کد زیر انجام میشه :
برای هندل کردن missing value از خط کد بالا استفاده میکنیم و با این کار داده های na رو به عنوان not available در نظر میگیریم .
راه های زیادی برای انتخاب یه subset از دیتای اصلی وجود دارد ولی دو راه که ما روشون تمرکز میکنیم این ها هستن:
1- نماد نقطه که ما ازش برای انتخاب هدف پیش بینی استفاده میکنیم ( prediction target )
2- انتخاب یک لیست ستونی ک از ان برای انتخاب ویژگی ها استفاده میکنیم ( features)
میتوان یک متغییر را با علامت نقطه بیرون کشید این ستون در یک سری ذخیره میشه که شبیه یک دیتا فریم با تنها یک ستون است .
ما از نماد دات یا نقطه برای انتخاب ستونی که میخواهیم پیش بینی کنیم استفاده میکنیم که به آن هدف پیش بینی میگن .طبق قرار داده هدف پیش بینی y نامیده میشه .بنابرین کدی که برای پیش بینی قیمت خانه در ملبورن نیاز داریم اینه :
ستون هایی که به مدل ما اضافه شدن و ما از اونها برای پیش بیینی استفاده میکنیم فیچر نامیده میشن توی این مثال ما میشه ستون هایی که برای پیش بینی قیمت خونه داریم ازشون استفاده میکنیم .بعضی وقتا از همه ستون ها بجز ستون تارگت استفاده میکنیم بعضی وقت هام بهتره از فیچر های کمتری استفاده کنیم.
الان ما یک مدل را با تعداد کمی ستون میسازیم بعدا یاد میگیرید چطوری نحوه تکرار و مدل های ساخته شده با ویژگی های مختلف رو مقایسه کنید .
ما فیچر های مختلف رو با اسم ستون ها و قرار دادنشون تو براکت انتخاب کردیم هر آیتم توی براکت باید رشته باشه و توی دابل کوئت قرار بگیره .
طبق قرار داد این داده ها رو X مینامیم:
یک نگاه سریع به داده های که میخواهیم برای پیش بینی استفاده کنیم می اندازیم :
چک کردن داده ها با این دستورات یکی از مهمترین بخش های دیتاساینس بودنه .شما غالبا شگفتی هایی را در داده ها پیدا میکنید که سزاوار بررسی بیشتر هستن.
شما باید از کتابخانه scikit-learn برای ساخت مدل خودتون استفاده کنید.بعدا متوجه خواهید شد که این کتابخانه بهترین نوع برای مدلسازی داده ایی است ک توی قالب دیتا فریم ذخیره شدن .
قدم هایی که باید برای ساختن مدل و استفاده از اون بر دارید عبارتند از :
اینم یه مثال از تعریف مدل درخت تصمیم گیری با sckit-learn و یافتن الگو (fitting) روی متغییر های هدف:
بسیاری از مدل های یادگیر ماشین اجازه میدن آموزش مدل تا حدی تصادفی باشه (هر بار که کد رو ران کنید ممکنه درصد متفاوتی ببینید)تعیین یک عدد برای random_state تضمین میکند که نتایج یکسانی و تو هر بار اجرای کدتون داشته باشید.
حالا ما یک مدل داریم که برازش شده و میتونیم ازش برای پیش بینی استفاده کنیم.در عمل ما میخواهیم برای خونه های جدیدی که به بازار میاد پیش بینی رو انجام بدیم نه خونه های قدیمی که قمیتشون و داریم اما برای چند ردیف اول داده ها پیش بینی رو انجام میدیم تا ببینیم عملکردمون چطوریه.
لینک آموزش اصلی رو میتونید از اینجا ببینید.