اولین قدم در هر پروژه یادگیری ماشینی آشنایی خودتون با داده هاست.برای این کار شما از کتابخونه pandasاستفاده میکنید .
این کتابخونه یه ابزار اصلی در علم داده برای کاوش و دستکاری داده هاست.بیشتر مردم pandas رو توی کد هاشون به صورت خلاصه به کار میبرن و بهش میگن pd .
مهمترین بخش توی این کتابخونه DataFrame هست.دیتافریم ها انواع داده ها را به صورت یک جدول نگه داری میکنن و ساختارشون شبیه sheet درexcel هست. این کتابخونه متد های قدرتمندی داره که تقریبا هرکاری بخواهید با داده ها بکنید رو براتون انجام میده .
برای مثال ما دنبال داده ای مربوط به قیمت خونه تو ملبورن استرالیا(این دیتاست یه دیتاست معروفه که برای شروع یادگیری ماشین معمولا ازش استفاده میکنن) هستیم :
نتیجه کد بالا برا ی هر ستون 8 عدد رو نشون میدهد .ستون اول count نشون میده چنتا سطر داده از دست رفته ای ندارن .
داده های از دست رفته (missing value)رو بعدا مفصلا در موردشون صحبت میکنیم ولی مثلا تو این دیتا ست ما یک خونه یک خوابه داریم و داده متراژ اتاق خواب دوم بی معنیه پس خالیش میزاریم.
داده دوم میانگین یا mean هست و بعدی std که مخفف (standard deviation) که نشون دهنده پراکندگی عددی مقادیرمون هست .
برای مقادیر 70%, 50%,25% و min , max فرض کنید داده ا را از کوچیک به بزرگ مرتب کنیم اولین داده یعنی کوچکترینش میشه min اخرین داده یعنی بزرگترینش max و اگه یک چهارم رو داده ها جلو بریم به عددی میرسیم که از 25% داده ها بزرگتره و برای دوتای دیگه هم به صورت مشابه تعریف میکنیم.
لینک اصلی رو میتونید از اینجا بخونید.