طراحی یک شاخص کیفیت داده

منتشر‌شده در towardsdatascience به تاریخ ۱۲جولای ۲۰۲۱
لینک منبع Designing a Data quality index

اندازه‌گیری کیفیت داده‌ها چیز جدیدی نیست. ابزارهای پروفایل داده‌های زیادی در بازار وجود دارد که به تحلیل‌گران داده‌ها کمک می‌کند تا شکاف‌های موجود در داده‌ها را درک کرده و به علل ریشه‌ای آن دست یابند.

با وجود داشتن مجموعه ابزارهای مختلف، پاسخ دادن به سوالاتی مانند این‌ها آسان نیست:

کیفیت کلی داده‌های این مجموعه چقدر خوب است؟ آیا کیفیت داده‌ها در طول ماه گذشته بهبود یافته‌است؟ - این مجموعه داده چقدر قابل‌اعتماد است؟

با در نظر گرفتن اهمیت بالای انبار و تعداد رو به رشد فعالیت‌ها در اطراف داده‌ها، کیفیت داده‌ها چیزی است که نه تنها کارشناسان، کاربران باید از آن آگاه باشند. ظهور BI مدرن و نقش‌های تحلیلی سلف‌سرویس مانند تحلیلگر داده، دانشمند داده، یا مهندس داده که درباره جزئیات کیفیت داده نیستند و می‌توانند از معیارهای ساده استفاده کنند برای به دست آوردن یک مرور کیفی از مجموعه داده‌هایی که می‌خواهند استفاده کنند.

چگونه یک امتیاز کیفیت داده خوب طراحی کنیم؟

این باید از زوایای مختلف دیده شود و ابعاد مختلفی را پوشش دهد که این فرمول چندان روشن نیست. بیایید الزاماتی که باید برآورده کند را ببینیم:

۱. درک ساده. کاربری که به دنبال کاتالوگ مجموعه داده‌های با تعداد زیاد است، باید به سرعت درک اولیه‌ای از میزان قابل‌اعتماد بودن آن بدون کم کردن جزئیات به دست آورد.

۲. اثبات مقیاس گذاری - اگر امتیاز روی یک نمونه کوچک‌تر اما نماینده اجرا می‌شد، باید کم و بیش مشابه باشد.

۳. قابل مقایسه با دیگر امتیازات کیفیت داده. معیارها می‌توانند برای مجموعه داده‌های مختلف متفاوت باشند اما باید به کاربران امکان مقایسه سطح بالا را بدهد حتی اگر آن مجموعه‌ها از نظر اندازه بسیار متفاوت باشند.

۴. هنجار شده - به وضوح بالاترین و پایین‌ترین امتیاز و معیار را برای مشاهده آنچه که می توان انتظار داشت و محک زدن این که ما تا چه حد از کامل بودن فاصله داریم، فراهم کرده‌است.

شاخص کیفیت داده باید نشان دهد که چگونه مجموعه داده مطابق با انتظارات کاربر است. معنی آن این است که ما می‌توانیم مقدار زیادی از دست رفته برای ویژگی‌ها را پیدا کنیم اما ممکن است این را انتظار داشته باشیم یا حتی به آن اهمیت ندهیم. این پایه و اساسی است که ما نمرات کیفیت داده را بر روی آن می‌سازیم.

انتظارات برای ستون‌ها / ویژگی‌ها:

- علامت‌گذاری داخلی با تعریف مقدار معتبر - کامل شده با ارزش تعریف‌شده در منبع داده‌های مرجع - ارتباط بین مجموعه‌های داده در تنظیم وابستگی‌های یا همبستگی بین ستون

چگونه مسائل مربوط به کیفیت داده را تعریف کنیم - گزارش نوع مساله کیفیت داده بر روی صفت یا رکورد یا گروهی از عناصر، اگر ۱۵ مورد از ۱۰۰ ارزش اجباری از دست بروند، آنگاه می‌توانیم بگوییم که کیفیت داده ۸۵٪ است. اعتماد نشان‌دهنده این احتمال است که مساله کیفیت داده یک مشکل کسب‌وکار واقعی است.

کیفیت داده برای یک ویژگی واحد در رکورد (برای یک سلول)

- درست است یا غلط، استاندارد را برآورده می‌کند یا خیر.

امتیاز کیفیت داده برای ویژگی

- ویژگی خاص یا نمره ستون بر اساس قوانینی که برای این ویژگی‌ها تنظیم شده است.

امتیاز کیفیت داده یک رکورد:

رویکردهای کمی وجود دارند که می‌توانند مورد استفاده قرار گیرند و باید منعکس‌کننده استفاده از داده توسط کسب و کارها باشند:

  • میانگین اولیه امتیاز ویژگی‌ها، اگر ۱ از ۵ ویژگی مورد نیاز قوانین داده را نقض کند، می‌توانیم بگوییم که داده‌ها ۸۰٪ سازگار هستند.
  • تنها رکوردهای کاملا سازگار را محاسبه کنید، بنابراین اگر این رکورد دارای ۰ ویژگی غیرسازگار باشد، در غیر این صورت امتیاز آن ۰ خواهد بود.
  • حداقل صلاحیت‌های لازم برای یک رکورد برای استفاده.

مثلا :

رکورد با ۱۰ ویژگی اما ۴ مورد از آن‌ها حداقل کیفیت مورد نیاز

اگر یکی از آن ۴ مورد اشتباه باشد، رکورد اشتباه است.

  • امتیاز وزنی به طور متوسط است بنابراین برخی از ویژگی‌ها مهم‌تر از بقیه هستند.

شاخص کیفیت داده برای جایگاه داده باید براساس مورد استفاده کسب‌وکار باشد اما رایج‌ترین رویکرد، میانگین ارزش تمام امتیازات رکورد است.

در پایان، یک نمره کیفیت خلاصه شده غیر داده‌ای می‌تواند نمای کلی مفید از قابلیت اطمینان مجموعه داده‌ها را برای کسانی که کارشناسان کیفیت داده نیستند ارائه دهد. داده‌های کیفی منجر به اطلاعات کیفی و اتخاذ تصمیمات کیفی می‌شوند. شاخص‌ها می‌توانند از همان ابتدا به یک تحلیل‌گر نشان دهند که در کجا ایستاده است.

این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.