مریم حسنعلی
مریم حسنعلی
خواندن ۲ دقیقه·۳ سال پیش

چولگی(Skewness) و کشیدگی (Kurtosis)

درک ابعاد داده کار مهمی است و به فهم اینکه بیشتر اطلاعات در کجا قرار گرفته اند و همچنین یافتن داده های پرت کمک می کند. در اکثر مواقع یک توزیع (distribution) با میانگین و واریانس توصیف می شود. در مرحله بعد، از چولگی (skewness) و کشیدگی(kurtosis) برای توصیف آن استفاده می شود.

چولگی(Skewness):

چولگی یک معیار تقارن یا عدم تقارن در یک توزیع آماری است. در آمار، چولگی درجه ایی از عدم تقارن مشاهده شده در یک توزیع احتمالاتی را نشان می دهد که از توزیع نرمال متقارن (bell curve) در یک مجموعه داده منحرف شده است. توزیع نرمال دارای چولگی صفر است. به طور کلی سه نوع چولگی داریم:

  • متقارن (symmetrical): زمانی که چولگی نزدیک به صفر است و میانگین و میانه تقربیا برابر است.
  • چولگی منفی (negative skew): زمانی که دنباله (tail) چپ نمودار هیستوگرام توزیع طولانی تر است و اکثر مشاهدات در دنباله راست متمرکز شده است. چولگی منفی، چولگی چپ یا دنباله چپ نامیده می شود. در این حالت میانه بزرگتر از میانگین است.
  • چولگی مثبت (positive skew): زمانی که دنباله (tail)راست نمودار هیستوگرام توزیع طولانی تر است و اکثر مشاهدات در دنباله چپ متمرکز شده است. چولگی مثبت، چولگی راست یا دنباله راست نامیده می شود. در این حالت میانه کوچکتر از میانگین است.

نمودار زیر سه نوع چولگی نشان داده شده است:

انواع مختلف چولگی
انواع مختلف چولگی


تفسیر مقادیر چولگی:

  • متقارن (symmetric): مقادیر بین 0.5- تا 0.5
  • داده با چولگی متوسط: مقادیر بین 0.5- و1- یا بین 0.5 و 1
  • داده با چولگی بالا: مقادیر کمتر از -1و بزرگتر از 1

وقتی داده ها دارای چولگی هستند، دنباله ممکن است در مدل های آماری مانند داده پرت (outlier) رفتار کند و به خصوص در مدل های رگرسیون می تواند تاثیر نامطلوبی در کارایی مدل داشته باشند. برخی از مدل های آماری مانند مدل های مبتنی بر درخت نسبت به داده های پرت مقاوم هستند، اما ممکن است بر روی مدل های دیگر تاثیر بگذارند. بنابراین نیاز به تبدیل داده دارای چولگی به توزیع نزدیک به توزیع نرمال می باشد.

کشیدگی (Kurtosis):

معیاری برای توصیف دامنه (tail) توزیع و توصیف شکل آن است. همچنین معیاری برای اندازه گیری قله (peak) یک توزیع است. قله بلندترین قسمت یک توزیع و دنباله انتهای توزیع است. یک توزیع با کشیدگی بالا اوج تیزتر و دنباله های عریض تر طولانی تری دارد در حالی که توزیع با کشیدگی کم، اوج گردتر و دنباله های باریک کوتاهتری دارد.

سه نوع کشیدگی وجود دارد:

  • میانه پهنا (Mesokurtic): دارای توزیع نرمال است.
  • لپتوکورتیک (Leptokurtic): این توزیع دارای دنباله های عریض تر و قله تیزتر است. در این حالت مقدار کشیدگی مثبت و مقدار آن از 3 بزرگتر است.
  • پلاتیکورتیک (Platykurtic): توزیع دارای قله پهن تر و پایین تر و دنباله های نارکتری است. در این حالت کشیدگی منفی و مقدار کمتر از 3 است.

در شکل زیر منحنی مربوط به این سه نوع کشیدگی نشان داده شده است:

انواع مختلف کشیدگی
انواع مختلف کشیدگی


آمارعلم داده
علاقمند به حوزه های هوش مصنوعی و یادگیری ماشین و ... کانال من در تلگرام: @meteorjournal ایمیل من: maryam.hasanali@gmail.com
شاید از این پست‌ها خوشتان بیاید