من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
طراحی یک شاخص کیفیت داده

منتشرشده در towardsdatascience به تاریخ ۱۲جولای ۲۰۲۱
لینک منبع Designing a Data quality index
اندازهگیری کیفیت دادهها چیز جدیدی نیست. ابزارهای پروفایل دادههای زیادی در بازار وجود دارد که به تحلیلگران دادهها کمک میکند تا شکافهای موجود در دادهها را درک کرده و به علل ریشهای آن دست یابند.
با وجود داشتن مجموعه ابزارهای مختلف، پاسخ دادن به سوالاتی مانند اینها آسان نیست:
کیفیت کلی دادههای این مجموعه چقدر خوب است؟ آیا کیفیت دادهها در طول ماه گذشته بهبود یافتهاست؟ - این مجموعه داده چقدر قابلاعتماد است؟
با در نظر گرفتن اهمیت بالای انبار و تعداد رو به رشد فعالیتها در اطراف دادهها، کیفیت دادهها چیزی است که نه تنها کارشناسان، کاربران باید از آن آگاه باشند. ظهور BI مدرن و نقشهای تحلیلی سلفسرویس مانند تحلیلگر داده، دانشمند داده، یا مهندس داده که درباره جزئیات کیفیت داده نیستند و میتوانند از معیارهای ساده استفاده کنند برای به دست آوردن یک مرور کیفی از مجموعه دادههایی که میخواهند استفاده کنند.
چگونه یک امتیاز کیفیت داده خوب طراحی کنیم؟
این باید از زوایای مختلف دیده شود و ابعاد مختلفی را پوشش دهد که این فرمول چندان روشن نیست. بیایید الزاماتی که باید برآورده کند را ببینیم:
۱. درک ساده. کاربری که به دنبال کاتالوگ مجموعه دادههای با تعداد زیاد است، باید به سرعت درک اولیهای از میزان قابلاعتماد بودن آن بدون کم کردن جزئیات به دست آورد.
۲. اثبات مقیاس گذاری - اگر امتیاز روی یک نمونه کوچکتر اما نماینده اجرا میشد، باید کم و بیش مشابه باشد.
۳. قابل مقایسه با دیگر امتیازات کیفیت داده. معیارها میتوانند برای مجموعه دادههای مختلف متفاوت باشند اما باید به کاربران امکان مقایسه سطح بالا را بدهد حتی اگر آن مجموعهها از نظر اندازه بسیار متفاوت باشند.
۴. هنجار شده - به وضوح بالاترین و پایینترین امتیاز و معیار را برای مشاهده آنچه که می توان انتظار داشت و محک زدن این که ما تا چه حد از کامل بودن فاصله داریم، فراهم کردهاست.
شاخص کیفیت داده باید نشان دهد که چگونه مجموعه داده مطابق با انتظارات کاربر است. معنی آن این است که ما میتوانیم مقدار زیادی از دست رفته برای ویژگیها را پیدا کنیم اما ممکن است این را انتظار داشته باشیم یا حتی به آن اهمیت ندهیم. این پایه و اساسی است که ما نمرات کیفیت داده را بر روی آن میسازیم.
انتظارات برای ستونها / ویژگیها:
- علامتگذاری داخلی با تعریف مقدار معتبر - کامل شده با ارزش تعریفشده در منبع دادههای مرجع - ارتباط بین مجموعههای داده در تنظیم وابستگیهای یا همبستگی بین ستون
چگونه مسائل مربوط به کیفیت داده را تعریف کنیم - گزارش نوع مساله کیفیت داده بر روی صفت یا رکورد یا گروهی از عناصر، اگر ۱۵ مورد از ۱۰۰ ارزش اجباری از دست بروند، آنگاه میتوانیم بگوییم که کیفیت داده ۸۵٪ است. اعتماد نشاندهنده این احتمال است که مساله کیفیت داده یک مشکل کسبوکار واقعی است.
کیفیت داده برای یک ویژگی واحد در رکورد (برای یک سلول)
- درست است یا غلط، استاندارد را برآورده میکند یا خیر.
امتیاز کیفیت داده برای ویژگی
- ویژگی خاص یا نمره ستون بر اساس قوانینی که برای این ویژگیها تنظیم شده است.
امتیاز کیفیت داده یک رکورد:
رویکردهای کمی وجود دارند که میتوانند مورد استفاده قرار گیرند و باید منعکسکننده استفاده از داده توسط کسب و کارها باشند:
- میانگین اولیه امتیاز ویژگیها، اگر ۱ از ۵ ویژگی مورد نیاز قوانین داده را نقض کند، میتوانیم بگوییم که دادهها ۸۰٪ سازگار هستند.
- تنها رکوردهای کاملا سازگار را محاسبه کنید، بنابراین اگر این رکورد دارای ۰ ویژگی غیرسازگار باشد، در غیر این صورت امتیاز آن ۰ خواهد بود.
- حداقل صلاحیتهای لازم برای یک رکورد برای استفاده.
مثلا :
رکورد با ۱۰ ویژگی اما ۴ مورد از آنها حداقل کیفیت مورد نیاز
اگر یکی از آن ۴ مورد اشتباه باشد، رکورد اشتباه است.
- امتیاز وزنی به طور متوسط است بنابراین برخی از ویژگیها مهمتر از بقیه هستند.
شاخص کیفیت داده برای جایگاه داده باید براساس مورد استفاده کسبوکار باشد اما رایجترین رویکرد، میانگین ارزش تمام امتیازات رکورد است.
در پایان، یک نمره کیفیت خلاصه شده غیر دادهای میتواند نمای کلی مفید از قابلیت اطمینان مجموعه دادهها را برای کسانی که کارشناسان کیفیت داده نیستند ارائه دهد. دادههای کیفی منجر به اطلاعات کیفی و اتخاذ تصمیمات کیفی میشوند. شاخصها میتوانند از همان ابتدا به یک تحلیلگر نشان دهند که در کجا ایستاده است.
این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
«وفادار تا مرگ» سگ رباتیک قرار است به گروه ضربت پلیس نیویورک بازگردد
مطلبی دیگر از این انتشارات
کرونا در کتابی در سال ۱۹۸۱ پیشبینی شده بود! توهم یا واقعیت؟
مطلبی دیگر از این انتشارات
۵ تفاوت تاثیر پاندمی ویروس کرونا با بحران مالی