من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
منابع دادههای بد و کاری که باید در مورد آن انجام دهید
منتشر شده در towardsdatascience به تاریخ ۱۹ جولای ۲۰۲۱
لینک منبع Sources of Bad Data And What to Do About It
در هر مشکل یادگیری ماشینی، داشتن دادههای خوب به اندازه داشتن یک مدل خوب مهم است. یا، همانطور که گفته معروف در مورد دادههای بد میگوید- ورودی بیکیفیت، خروجی بیکیفیت. در این مقاله ما برخی از منابع مشترک و در عین حال ناشناخته دادههای بد را بررسی میکنیم.
کدگذاری بالا و کدگذاری پایین
کدگذاری بالا و کدگذاری پایین زمانی رخ میدهد که یک مجموعه داده، اعداد بسیار بالا یا بسیار پایین را با همان ارزش جایگزین میکند. این موضوع گاهی اوقات برای حفاظت از هویت افراد در مجموعه داده استفاده میشود. به عنوان مثال، یک مجموعه داده در دسترس عموم با بخشی از داده درآمد در نظر بگیرید. افراد زیادی درآمد بالای یک میلیارد دلار ندارند، به این معنی که در صورت عدم تغییر، ورودیها دقیقاً براساس تعداد درآمد میتوانند با شخص دقیق مطابقت داشته باشند. برای جلوگیری از این امر و حفظ گمنامی، ما میتوانیم کدنویسی را انجام دهیم و همه درآمدها را در مجموعه داده بالاتر از تعداد زیادی، مثلا ۱۰۰ میلیون، به همان تعداد، قرار دهیم. البته، این بدان معنی است که هر مدلی که بر روی دادههای درآمد در این مجموعه داده ساخته شدهباشد، نادرست خواهد بود. هیچ راهی برای به دست آوردن مقادیر حقیقی اعداد با کد بالا / پایین وجود ندارد، بنابراین بهترین کاری که میتوانیم انجام دهیم این است که مقادیر حقیقی آنها را براساس مقادیر دیگر و بدون تغییر تخمین بزنیم. برای مثال، شما میتوانید یک مدل خطی را بر روی مقادیر درآمد غیر کد گذاری شده آموزش دهید، و سپس از آن مدل برای برون یابی مقادیر کد گذاری شده واقعی استفاده کنید.
گزارش پروکسی
گزارشدهی پروکسی زمانی رخ میدهد که یک عضو در یک نظرسنجی به سوالات اعضای دیگر در نظرسنجی پاسخ میدهد. یک مثال معمول از این، بررسی خانواده است، که در آن رئیس خانواده به سوالات همه افراد خانواده پاسخ میدهد. مشکل گزارش پروکسی این است که فردی که به نظرسنجی پاسخ میدهد ممکن است پاسخهای خالی یا نادرستی برای افرادی که برای آنها پاسخ میدهد بدهد. بنابراین، اگر مجموعه داده شما شامل مقادیر گزارششده پروکسی باشد، سخت است که بگوییم آیا میتوانید به دادهها اعتماد کنید یا خیر. یک راه برای حصول اطمینان از صحت مقادیر گزارششده پروکسی، مقایسه آنها با مقادیر غیر پروکسی است.
بایاس انتخابی
به طور کلی، مسایل بایاس انتخاب زمانی رخ میدهد که نمونه پشت یک مجموعه داده تصادفی نباشد، که بایاس را معرفی میکند. این به دلایل مختلف اتفاق میافتد. یکی از دلایل رایج بایاس در انتخاب این است که افرادی که تمایل به پاسخ دادن به نظرسنجیها دارند ویژگیهای خاص مشخصی دارند-به عنوان مثال انجام فعالیتهای مدنی و سیاسی بیشتر. سپس، اگر نظرسنجی در مورد میزان فعالیت سیاسی مردم باشد، به سمت فعالیت بیشتر متمایل خواهد شد. مثال دیگری از انحراف انتخاب در پزشکی رخ میدهد، زمانی که پزشکان از داوطلبان میخواهند که اثربخشی یک درمان جدید را آزمایش کنند. افرادی که برای این درمانها داوطلب میشوند احتمالا نماینده جمعیت عمومی نیستند چون آنها ممکن است از نظر پزشکی باسواد باشند، از خودشان بهتر مراقبت کنند، جوانتر باشند و غیره.
مشکل بایاس در انتخاب این است که گاهی اوقات قابل اجتناب نیست، به خصوص زمانی که نظرسنجی شما متکی به درخواست از داوطلبان است. همچنین روش خوبی برای کاهش آن در مجموعه داده شما وجود ندارد - هیچ ترفند آماری وجود ندارد که بتوانیم برای بیطرف شدن مجموعه داده انجام دهیم. بهترین کاری که میتوانیم انجام دهیم طراحی نظر سنجیها برای جلوگیری از انحراف در انتخاب است و نظر سنجیهای جانبدارانه را با اطلاع از نادرست بودن نتیجهگیری کنید.
بایاس انتسابی
بسیاری از مجموعه دادهها دارای مقادیر خالی هستند. یک راه برای مقابله با این جاهای خالی، پر کردن یا نسبت دادن مقادیر براساس برخی از فرمولها است. هنگامی که درصد مقادیر تصرفشده قابلتوجه باشد، ممکن است نتایج بهدستآمده از دادهها مشکوک باشند. برای مثال، ممکن است بخواهیم تفاوت در طول زمان را در درآمد برای هر فرد در یک گروه اندازهگیری کنیم. این امر مستلزم گرفتن دو بررسی درآمد در دو زمان متفاوت است. بیایید فرض کنیم که برخی از ارزشها برای یکی از نظرسنجیها با گرفتن میانگین نمونه از مقادیر غیر انتسابی نادیده گرفته شدهاند. سپس، برای هر فرد با یک نقطه داده انتسابی، ما تفاوت در درآمد برای آن فرد را اندازهگیری نمیکنیم-ما در واقع تفاوت بین یک نقطه داده و میانگین هر فرد دیگری را اندازهگیری میکنیم، که هیچ معنایی ندارد.
روش دیگر مقابله با ارزشهای انتسابی، رها کردن آنها از مجموعه داده است. متاسفانه، این میتواند دادهها را منحرف کند. بهترین راه برای مقابله با دادههای احتمالا انتسابی یافتن دادههای واقعی است. این گاهی ممکن است، برای مثال اگر شما کارمند دولت هستید و به مجموعه دادههای دیگر با دادههای مشابه دسترسی دارید. راهحل سوم، وزن دهی مجدد دادهها است به طوری که مقادیر انتسابی به اندازه مقادیر غیر انتسابی به حساب نمیآیند.
شرایطی وجود دارد که در آن دادههای انتسابی مشکل بزرگی نیستند. به عنوان مثال، اگر تمام تلاش ما برای یافتن میانگین یک مجموعه داده باشد، استفاده از دادههای انتسابی که با میانگین نمونه محاسبه شده است نباید تغییر زیادی در میانگین ایجاد کند. همچنین، برای مجموعه دادههای "خوش رفتار" با فاصلههای کم و واریانس کم، دادههای انتسابی تأثیر کمتری دارند.
در این مقاله نگاهی به برخی منابع دادههای بد انداختیم. در برخی شرایط، ما روشهایی را برای کاهش تاثیر دادههای بد ارائه کردهایم. در موقعیتهای دیگر (مانند بایاس انتخاب ناشی از نظرسنجی داوطلبانه) ، ما دیدهایم که کارهای زیادی نمیتوانیم انجام دهیم. صرفنظر از این، مهم است که این منابع ممکن از دادههای بد را در ذهن داشته باشید، و نتیجهگیری حاصل از مجموعه دادههای بد را براساس آن قضاوت کنید.
این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
تاثیر حداقل دستمزد بر مشاغل کمدرآمد
مطلبی دیگر از این انتشارات
محققان عوامل محیطی را شناسایی میکنند که خطر بیماری التهابی شکم و روده را افزایش میدهد
مطلبی دیگر از این انتشارات
پایان عصر ماشینهایی که امروزه میشناسیم