درک ابعاد داده کار مهمی است و به فهم اینکه بیشتر اطلاعات در کجا قرار گرفته اند و همچنین یافتن داده های پرت کمک می کند. در اکثر مواقع یک توزیع (distribution) با میانگین و واریانس توصیف می شود. در مرحله بعد، از چولگی (skewness) و کشیدگی(kurtosis) برای توصیف آن استفاده می شود.
چولگی یک معیار تقارن یا عدم تقارن در یک توزیع آماری است. در آمار، چولگی درجه ایی از عدم تقارن مشاهده شده در یک توزیع احتمالاتی را نشان می دهد که از توزیع نرمال متقارن (bell curve) در یک مجموعه داده منحرف شده است. توزیع نرمال دارای چولگی صفر است. به طور کلی سه نوع چولگی داریم:
نمودار زیر سه نوع چولگی نشان داده شده است:
تفسیر مقادیر چولگی:
وقتی داده ها دارای چولگی هستند، دنباله ممکن است در مدل های آماری مانند داده پرت (outlier) رفتار کند و به خصوص در مدل های رگرسیون می تواند تاثیر نامطلوبی در کارایی مدل داشته باشند. برخی از مدل های آماری مانند مدل های مبتنی بر درخت نسبت به داده های پرت مقاوم هستند، اما ممکن است بر روی مدل های دیگر تاثیر بگذارند. بنابراین نیاز به تبدیل داده دارای چولگی به توزیع نزدیک به توزیع نرمال می باشد.
معیاری برای توصیف دامنه (tail) توزیع و توصیف شکل آن است. همچنین معیاری برای اندازه گیری قله (peak) یک توزیع است. قله بلندترین قسمت یک توزیع و دنباله انتهای توزیع است. یک توزیع با کشیدگی بالا اوج تیزتر و دنباله های عریض تر طولانی تری دارد در حالی که توزیع با کشیدگی کم، اوج گردتر و دنباله های باریک کوتاهتری دارد.
سه نوع کشیدگی وجود دارد:
در شکل زیر منحنی مربوط به این سه نوع کشیدگی نشان داده شده است: