مریم حسنعلی
مریم حسنعلی
خواندن ۴ دقیقه·۴ سال پیش

توزیع نرمال یا توزیع گوسی

توزیع نرمال که توزیع گوسی (Gaussian Distribution) نیز نامیده می شود، از مهمترین توزیع احتمالاتی در آمار است زیرا بسیاری از داده های پیوسته در طبیعت و روانشناسی دارای توزیع نرمال هستند. اگر توزیع احتمالاتی یک متغیر را رسم کنید و یک شکل زنگوله مانند به دست بیاید و میانگین، مد و میانه آن برابر باشد، متغیر دارای توزیع نرمال است. برای مثال، اگر به صورت تصادفی 100 شخص را در نظر بگیریم بسیاری از متغیرهای پیوسته مربوط به آنها مانند IQ ، قد، وزن و فشار خون از این شکل زنگوله مانند و توزیع نرمال پیروی می کند.

چگونه خم توزیع احتمالاتی (probability distribution curve)را رسم کنیم؟ مقادیر ممکن برای یک متغیر را به دسته ها یا بازه هایی گروه بندی کنید. برای هر دسته، تعداد دفعاتی که مقدار هر دسته یا بازه رخ می دهد، ثبت کنید. برای مثال، امتحانی را در نظر بگیرید که تعداد زیادی دانشجو در آن شرکت کردند و نمرات دانشجویان می تواند مقادیر A,B,C,D,F را داشته باشند. می توان یک نمودار خطی برای این مقادیر رسم کرد به طوریکه محور x مقادیر دسته یا بازه باشند و محور y نشان دهنده تعداد دفعات رخ داد مقادیر آن دسته یا بازه باشند. بنابراین، محور افقی A,B,C,D,F هستند و محور عمودی تعداد دانشجویانی هستند که این نمرات را به دست آوردند. مقادیر این نمودار شکل یک خم را نشان می دهد که خم توزیع احتمالاتی نامیده می شود (مانند شکل زیر).

ویژگی های توزیع نرمال:

اولین مشخصه توزیع نرمال این است که میانگین، میانه و مد، برابر هستند. میانگین مرکز نمودار (خم) است و نمودار در نقطه میانگین دارای بیشترین ارتفاع است و بیشتر مقادیر در آن نقطه قرار دارد. برای یافتن میانه یک مجموعه از اعداد، آنها را به ترتیب مقدار مرتب می‌کنیم و سپس عددی که در وسط آنها قرار دارد میانه نامیده می شود. مقداری که بیشترین تکرار در یک مجموعه داده داشته باشد، مد داده ها می باشد.

مشخصه دوم توزیع نرمال تقارن است، یعنی اگر نمودار توزیع نرمال را از وسط برش بزنید، هر طرف آینه و بازتاب طرف دیگر است.


مشخصه سوم توزیع نرمال این است که کل ناحیه زیر خم (area under the curve) برابر با کل احتمال همه مقادیر متغیرها و برابر 100 درصد است. به دلیل اینکه دنباله نمودار به سمت بی نهایت میل می کند، در عمل 99.73 داده ها در ناحیه زیر نمودار واقع شده است. این خم در در فاصله سه برابر انحراف معیار از هر دو طرف میانگین گسترده شده است.

انحراف معیار، عددی برای نشان دادن میزان پراکندگی اعضای یک مجموعه از داده‌ها است. هر چه انحراف معیار مجموعه‌ای از داده‌ها عدد پایین‌تری باشد، نشانه آن است که داده‌ها به میانگین نزدیک هستند و پراکندگی اندکی دارند. اگر انحراف معیار عدد بزرگی باشد، نشان می‌دهد که پراکندگی داده‌ها زیاد است.

مشخصه چهارم توزیع نرمال این است که از آن برای درک چگونگی گسترده شدن مقادیر می توان استفاده کرد. همانطور که شکل زیر می بینید، کل نمودار توزیع نرمال در 3 برابر انحراف معیار +/- میانگین کشیده شده است. تقریبا 68.2 درصد مقادیر در بازه 1 تا 1- برابر انحراف استاندارد از میانگین قرار دارند. حدود 95.5درصد مقادیر در بازه 2 تا 2- برابر انحراف معیار از میانگین وجود دارد. حدود 99.7 درصد مقادیر در بازه 3 تا 3- برابر انحراف معیار از میانگین پراکنده شده است.

مشخصه پنجم توزیع نرمال این است که اگر انحراف معیار و میانگین را داشته باشیم، ناحیه زیر خم می تواند مشخص شود. برای مثال 99.73 درصد داده ها در 3 برابر انحراف معیار در هر دو طرف میانگین واقع شده است.

توزیع گوسیتوزیع نرمالآمارعلم دادههوش مصنوعی
علاقمند به حوزه های هوش مصنوعی و یادگیری ماشین و ... کانال من در تلگرام: @meteorjournal ایمیل من: maryam.hasanali@gmail.com
شاید از این پست‌ها خوشتان بیاید