منابع داده‌های بد و کاری که باید در مورد آن انجام دهید

شکل ۱. داده‌های بد
شکل ۱. داده‌های بد
منتشر شده در towardsdatascience به تاریخ ۱۹ جولای ۲۰۲۱
لینک منبع Sources of Bad Data And What to Do About It

در هر مشکل یادگیری ماشینی، داشتن داده‌های خوب به اندازه داشتن یک مدل خوب مهم است. یا، همانطور که گفته معروف در مورد داده‌های بد می‌گوید- ورودی بی‌کیفیت، خروجی بی‌کیفیت. در این مقاله ما برخی از منابع مشترک و در عین حال ناشناخته داده‌های بد را بررسی می‌کنیم.

کدگذاری بالا و کدگذاری پایین

کدگذاری بالا و کدگذاری پایین زمانی رخ می‌دهد که یک مجموعه داده، اعداد بسیار بالا یا بسیار پایین را با همان ارزش جایگزین می‌کند. این موضوع گاهی اوقات برای حفاظت از هویت افراد در مجموعه داده استفاده می‌شود. به عنوان مثال، یک مجموعه داده در دسترس عموم با بخشی از داده درآمد در نظر بگیرید. افراد زیادی درآمد بالای یک میلیارد دلار ندارند، به این معنی که در صورت عدم تغییر، ورودی‌ها دقیقاً براساس تعداد درآمد می‌توانند با شخص دقیق مطابقت داشته باشند. برای جلوگیری از این امر و حفظ گمنامی، ما می‌توانیم کدنویسی را انجام دهیم و همه درآمدها را در مجموعه داده بالاتر از تعداد زیادی، مثلا ۱۰۰ میلیون، به همان تعداد، قرار دهیم. البته، این بدان معنی است که هر مدلی که بر روی داده‌های درآمد در این مجموعه داده ساخته شده‌باشد، نادرست خواهد بود. هیچ راهی برای به دست آوردن مقادیر حقیقی اعداد با کد بالا / پایین وجود ندارد، بنابراین بهترین کاری که می‌توانیم انجام دهیم این است که مقادیر حقیقی آن‌ها را براساس مقادیر دیگر و بدون تغییر تخمین بزنیم. برای مثال، شما می‌توانید یک مدل خطی را بر روی مقادیر درآمد غیر کد گذاری شده آموزش دهید، و سپس از آن مدل برای برون یابی مقادیر کد گذاری شده واقعی استفاده کنید.

گزارش پروکسی

گزارش‌دهی پروکسی زمانی رخ می‌دهد که یک عضو در یک نظرسنجی به سوالات اعضای دیگر در نظرسنجی پاسخ می‌دهد. یک مثال معمول از این، بررسی خانواده است، که در آن رئیس خانواده به سوالات همه افراد خانواده پاسخ می‌دهد. مشکل گزارش پروکسی این است که فردی که به نظرسنجی پاسخ می‌دهد ممکن است پاسخ‌های خالی یا نادرستی برای افرادی که برای آن‌ها پاسخ می‌دهد بدهد. بنابراین، اگر مجموعه داده شما شامل مقادیر گزارش‌شده پروکسی باشد، سخت است که بگوییم آیا می‌توانید به داده‌ها اعتماد کنید یا خیر. یک راه برای حصول اطمینان از صحت مقادیر گزارش‌شده پروکسی، مقایسه آن‌ها با مقادیر غیر پروکسی است.

بایاس انتخابی

به طور کلی، مسایل بایاس انتخاب زمانی رخ می‌دهد که نمونه پشت یک مجموعه داده تصادفی نباشد، که بایاس را معرفی می‌کند. این به دلایل مختلف اتفاق می‌افتد. یکی از دلایل رایج بایاس در انتخاب این است که افرادی که تمایل به پاسخ دادن به نظرسنجی‌ها دارند ویژگی‌های خاص مشخصی دارند-به عنوان مثال انجام فعالیت‌های مدنی و سیاسی بیشتر. سپس، اگر نظرسنجی در مورد میزان فعالیت سیاسی مردم باشد، به سمت فعالیت بیشتر متمایل خواهد شد. مثال دیگری از انحراف انتخاب در پزشکی رخ می‌دهد، زمانی که پزشکان از داوطلبان می‌خواهند که اثربخشی یک درمان جدید را آزمایش کنند. افرادی که برای این درمان‌ها داوطلب می‌شوند احتمالا نماینده جمعیت عمومی نیستند چون آن‌ها ممکن است از نظر پزشکی باسواد باشند، از خودشان بهتر مراقبت کنند، جوان‌تر باشند و غیره.

مشکل بایاس در انتخاب این است که گاهی اوقات قابل اجتناب نیست، به خصوص زمانی که نظرسنجی شما متکی به درخواست از داوطلبان است. همچنین روش خوبی برای کاهش آن در مجموعه داده شما وجود ندارد - هیچ ترفند آماری وجود ندارد که بتوانیم برای بی‌طرف شدن مجموعه داده انجام دهیم. بهترین کاری که می‌توانیم انجام دهیم طراحی نظر سنجی‌ها برای جلوگیری از انحراف در انتخاب است و نظر سنجی‌های جانبدارانه را با اطلاع از نادرست بودن نتیجه‌گیری کنید.

بایاس انتسابی

بسیاری از مجموعه داده‌ها دارای مقادیر خالی هستند. یک راه برای مقابله با این جاه‌ای خالی، پر کردن یا نسبت دادن مقادیر براساس برخی از فرمول‌ها است. هنگامی که درصد مقادیر تصرف‌شده قابل‌توجه باشد، ممکن است نتایج به‌دست‌آمده از داده‌ها مشکوک باشند. برای مثال، ممکن است بخواهیم تفاوت در طول زمان را در درآمد برای هر فرد در یک گروه اندازه‌گیری کنیم. این امر مستلزم گرفتن دو بررسی درآمد در دو زمان متفاوت است. بیایید فرض کنیم که برخی از ارزش‌ها برای یکی از نظرسنجی‌ها با گرفتن میانگین نمونه از مقادیر غیر انتسابی نادیده گرفته شده‌اند. سپس، برای هر فرد با یک نقطه داده انتسابی، ما تفاوت در درآمد برای آن فرد را اندازه‌گیری نمی‌کنیم-ما در واقع تفاوت بین یک نقطه داده و میانگین هر فرد دیگری را اندازه‌گیری می‌کنیم، که هیچ معنایی ندارد.

روش دیگر مقابله با ارزش‌های انتسابی، رها کردن آن‌ها از مجموعه داده است. متاسفانه، این می‌تواند داده‌ها را منحرف کند. بهترین راه برای مقابله با داده‌های احتمالا انتسابی یافتن داده‌های واقعی است. این گاهی ممکن است، برای مثال اگر شما کارمند دولت هستید و به مجموعه داده‌های دیگر با داده‌های مشابه دسترسی دارید. راه‌حل سوم، وزن دهی مجدد داده‌ها است به طوری که مقادیر انتسابی به اندازه مقادیر غیر انتسابی به حساب نمی‌آیند.

شرایطی وجود دارد که در آن داده‌های انتسابی مشکل بزرگی نیستند. به عنوان مثال، اگر تمام تلاش ما برای یافتن میانگین یک مجموعه داده باشد، استفاده از داده‌های انتسابی که با میانگین نمونه محاسبه شده است نباید تغییر زیادی در میانگین ایجاد کند. همچنین، برای مجموعه داده‌های "خوش رفتار" با فاصله‌های کم و واریانس کم‌، داده‌های انتسابی تأثیر کمتری دارند.

در این مقاله نگاهی به برخی منابع داده‌های بد انداختیم. در برخی شرایط، ما روش‌هایی را برای کاهش تاثیر داده‌های بد ارائه کرده‌ایم. در موقعیت‌های دیگر (مانند بایاس انتخاب ناشی از نظرسنجی داوطلبانه) ، ما دیده‌ایم که کارهای زیادی نمی‌توانیم انجام دهیم. صرف‌نظر از این، مهم است که این منابع ممکن از داده‌های بد را در ذهن داشته باشید، و نتیجه‌گیری حاصل از مجموعه داده‌های بد را براساس آن قضاوت کنید.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.