mina mesbah
mina mesbah
خواندن ۲ دقیقه·۵ سال پیش

جمع آوری داده

متخصص علم داده بدون داده یعنی هیچ، پس به اهمیت داده باید توجه شود. داده باید به درستی جمع‌آوری شود. داده شامل متغیر (feature-ستون) و رکورد (record-ردیف) است. حالا منظور از درست چی هست؟

1. محتوای داده‌ها درست باشد، به این معنی که مقدار وارد شده در هر متغیر درست باشد. به طور مثال کد ملی باید حتما عددی باشد و نباید حروف در آن باشد و یا اگر متغیری حاوی مقدار اندازه‌گیری شده است این مقدار در رنج متناسب قرار داشته باشد.

2. تعداد متغیرها به اندازه باشد، به این معنی که تمام متغیرهایی که برای آن مجموعه داده مورد نیاز بوده به درستی انتخاب شود و مقادیر آن جمع‌آوری شوند. برای این مورد کارفرما باید دید باز داشته باشد و مواردی را که می‌داند در آینده ممکن است مورد نیاز باشد را هم در نظر بگیرد (به طور نمونه با توجه به نوسانات اخیر دلار در ایران، این که قیمت دلار در زمان خرید کالا و قیمت دلار در زمان فروش کالا نگهداری شود اهمیت بالایی دارد). تعریف هر متغیر هم مشخص باشد.

برای نمونه تعدادی از متغیرهایی که در یک فروشگاه مانند والمارت مارکت جمع‌آوری می‌شود در زیر نشان داده شده است:

1. متغیر:

1) TripType

2) VisitNumber

3) Weekdays

4) UPC

5) ScanCount

6) DepartmentDescription

7) FilelineNumber

2. تعریف متغیر:

1) آیدی که نوع خرید مشتری را نمایش می‌دهد.

2) آیدی هر مشتری

3) روزهای هفته

4) کد UPC کالای خریداری شده.

5) تعدادی که از کالای مورد نظر خریداری (مقدار مثبت) شده و یا برگشت (مقدار منفی) داده شده است.

6) بخش‌های مختلف فروشگاه که کالای مورد نظر از آن خریداری شده است.

7) هر بخشی چندین line دارد. شماره‌ی line مورد نظر که کالا از آن خریداری شده است.

3. نوع متغیر:

1) عددی

2) عددی

3) اسمی

4) عددی

5) عددی

6) اسمی

7) عددی

یکی از خروجی‌های کار متخصص علم داده پیش‌بینی متغیر مورد نیاز در فیلد مورد نظر است. برای این کار نیاز است که داده به دو بخش train و test تقسیم شود، در نتیجه هر چه داده‌ای که جمع‌آوری شده حجم بیشتر و دقت بالاتری داشته باشد، پیش‌بینی هم دقت بالاتری خواهد داشت. در نمونه‌ی مطرح شده در بالا می‌توان TripType را برای هر مشتری پیش‌بینی کرد.

به جمع‌آوری داده در مجموعه داده‌ی (data base) خود دقت کنید. با تشکر :))

دادهمتخصص علم دادهجمع آوری دادهمتغیررکورد
Machine learning, Data mining, Big Data. Data Scientist at Voxifier
شاید از این پست‌ها خوشتان بیاید