متخصص علم داده بدون داده یعنی هیچ، پس به اهمیت داده باید توجه شود. داده باید به درستی جمعآوری شود. داده شامل متغیر (feature-ستون) و رکورد (record-ردیف) است. حالا منظور از درست چی هست؟
1. محتوای دادهها درست باشد، به این معنی که مقدار وارد شده در هر متغیر درست باشد. به طور مثال کد ملی باید حتما عددی باشد و نباید حروف در آن باشد و یا اگر متغیری حاوی مقدار اندازهگیری شده است این مقدار در رنج متناسب قرار داشته باشد.
2. تعداد متغیرها به اندازه باشد، به این معنی که تمام متغیرهایی که برای آن مجموعه داده مورد نیاز بوده به درستی انتخاب شود و مقادیر آن جمعآوری شوند. برای این مورد کارفرما باید دید باز داشته باشد و مواردی را که میداند در آینده ممکن است مورد نیاز باشد را هم در نظر بگیرد (به طور نمونه با توجه به نوسانات اخیر دلار در ایران، این که قیمت دلار در زمان خرید کالا و قیمت دلار در زمان فروش کالا نگهداری شود اهمیت بالایی دارد). تعریف هر متغیر هم مشخص باشد.
برای نمونه تعدادی از متغیرهایی که در یک فروشگاه مانند والمارت مارکت جمعآوری میشود در زیر نشان داده شده است:
1. متغیر:
1) TripType
2) VisitNumber
3) Weekdays
4) UPC
5) ScanCount
6) DepartmentDescription
7) FilelineNumber
2. تعریف متغیر:
1) آیدی که نوع خرید مشتری را نمایش میدهد.
2) آیدی هر مشتری
3) روزهای هفته
4) کد UPC کالای خریداری شده.
5) تعدادی که از کالای مورد نظر خریداری (مقدار مثبت) شده و یا برگشت (مقدار منفی) داده شده است.
6) بخشهای مختلف فروشگاه که کالای مورد نظر از آن خریداری شده است.
7) هر بخشی چندین line دارد. شمارهی line مورد نظر که کالا از آن خریداری شده است.
3. نوع متغیر:
1) عددی
2) عددی
3) اسمی
4) عددی
5) عددی
6) اسمی
7) عددی
یکی از خروجیهای کار متخصص علم داده پیشبینی متغیر مورد نیاز در فیلد مورد نظر است. برای این کار نیاز است که داده به دو بخش train و test تقسیم شود، در نتیجه هر چه دادهای که جمعآوری شده حجم بیشتر و دقت بالاتری داشته باشد، پیشبینی هم دقت بالاتری خواهد داشت. در نمونهی مطرح شده در بالا میتوان TripType را برای هر مشتری پیشبینی کرد.
به جمعآوری داده در مجموعه دادهی (data base) خود دقت کنید. با تشکر :))