خواندن ۳۷ دقیقه·۲ سال پیش

آمار و احتمال برای یادگیری ماشینی | مهدی مشایخی

آمار و احتمال بلوک های سازنده انقلابی ترین فناوری ها در دنیای امروز هستند. از هوش مصنوعی گرفته تا یادگیری ماشینی و بینایی کامپیوتری، آمار و احتمال پایه و اساس اساسی همه این فناوری‌ها را تشکیل می‌دهند. در این مقاله در مورد آمار و احتمال، قصد دارم به شما در درک ریاضیات پشت پیچیده ترین الگوریتم ها و فناوری ها کمک کنم.

پیش نیاز :

بهتر هست که تا مفاهیم ریاضیات پایه نهم رو حداقل بدونید و بهتر هست که ریاضیات سه سال متوسطه دوم رشته ریاضی فیزیک رو مروری کنید تا در درک مفاهیم و مباحثی که در ادامه به آن ها خواهیم پرداخت مشکلی نداشته باشید.

به موضوعات زیر میپردازیم :

داده چیست؟
دسته بندی داده ها
آمار چیست؟
اصطلاحات پایه در آمار
تکنیک های نمونه برداری
انواع آمار
آمار توصیفی اقدامات مرکز
اقدامات گسترش
به دست آوردن اطلاعات و آنتروپی
ماتریس سردرگمی
احتمال چیست؟
اصطلاحات در احتمال
توزیع احتمال
انواع احتمال
قضیه بیز
آمار استنباطی تخمین نقطه ای
تخمین بازه زمانی
تخمین سطح اعتماد
تست فرضیه

داده چیست؟

به اطراف خود نگاه کنید، همه جا داده است. هر کلیک روی گوشی شما اطلاعات بیشتری از آنچه می دانید تولید می کند. این داده های تولید شده بینش هایی برای تجزیه و تحلیل ارائه می دهد و به ما کمک می کند تا تصمیمات تجاری بهتری بگیریم. به همین دلیل است که داده ها بسیار مهم هستند.

داده ها را می توان جمع آوری، اندازه گیری و تجزیه و تحلیل کرد. همچنین با استفاده از مدل های آماری و نمودارها قابل تجسم است.

دسته بندی داده ها

داده ها را می توان به دو زیر دسته تقسیم کرد:

داده های کیفی
اطلاعات کمی

برای درک دسته های مختلف داده ها به شکل زیر مراجعه کنید:

دسته بندی داده ها – آمار و احتمال – مهدی مشایخی

داده های کیفی : داده های کیفی با ویژگی ها و توصیف کننده هایی سروکار دارند که به راحتی قابل اندازه گیری نیستند، اما می توان آنها را به صورت ذهنی مشاهده کرد. داده های کیفی به دو نوع داده تقسیم می شوند:

داده های اسمی: داده هایی بدون ترتیب ذاتی یا رتبه بندی مانند جنسیت یا نژاد.

داده های اسمی – آمار و احتمال – مهدی مشایخی

داده های ترتیبی: داده هایی با یک سری اطلاعات مرتب شده، داده های ترتیبی نامیده می شوند.

داده های ترتیبی – آمار و احتمال – مهدی مشایخی

داده های کمی : داده های کمی با اعداد و چیزهایی که می توانید به طور عینی اندازه گیری کنید سروکار دارد. این بیشتر به دو قسمت تقسیم می شود:

داده گسسته: همچنین به عنوان داده طبقه ای شناخته می شود، می تواند تعداد محدودی از مقادیر ممکن را در خود نگه دارد.

مثال: تعداد دانش آموزان یک کلاس.

داده های پیوسته: داده هایی که می توانند تعداد نامحدودی از مقادیر ممکن را در خود جای دهند.

مثال: وزناز یک شخص

بنابراین این دسته بندی های مختلف داده ها بودند. بخش‌های آتی بر مفاهیم پایه آمار تمرکز خواهند کرد، بنابراین دست و پنجه نرم کنید و برای انجام مقداری ریاضی آماده شوید.

آمار چیست؟

آمار حوزه ای از ریاضیات کاربردی است که با جمع آوری، تجزیه و تحلیل، تفسیر و ارائه داده ها سروکار دارد.

این حوزه از ریاضیات به درک چگونگی استفاده از داده ها برای حل مسائل پیچیده می پردازد. در اینجا چند نمونه از مشکلاتی که با استفاده از آمار قابل حل هستند آورده شده است:

شرکت شما داروی جدیدی ایجاد کرده است که ممکن است سرطان را درمان کند. چگونه آزمایشی را برای تایید اثربخشی دارو انجام می دهید؟
شما و یکی از دوستانتان در یک بازی بیسبال هستید، و او به شما شرط می‌بندد که هیچ یک از تیم‌ها در آن بازی به خانه نخواهند رسید. آیا باید شرط بندی را انجام دهید؟
آخرین داده های فروش به تازگی منتشر شده است و رئیس شما از شما می خواهد که گزارشی را برای مدیریت در مورد مکان هایی که شرکت می تواند تجارت خود را بهبود بخشد تهیه کنید. به دنبال چه چیزی باید باشید؟به دنبال چه چیزی نباید باشید؟

با استفاده از تکنیک های آماری می توان این مسائل را به راحتی حل کرد. در بخش های آینده، خواهیم دید که چگونه می توان این کار را انجام داد.

اگر می‌خواهید توضیح عمیق‌تری در مورد آمار و احتمال داشته باشید، می‌توانید این ویدیو را توسط کارشناسان آمار ما مشاهده کنید.

اصطلاحات پایه در آمار

قبل از اینکه عمیقاً در بخش آمار غوطه ور شوید، مهم است که اصطلاحات اساسی مورد استفاده در آمار را درک کنید. دو اصطلاح مهم در آمار عبارتند از جامعه و نمونه.

جمعیت و نمونه – آمار و احتمال – مهدی مشایخی

جمعیت: مجموعه یا مجموعه ای از افراد یا اشیاء یا رویدادهایی که خصوصیات آنها مورد تجزیه و تحلیل قرار می گیرد

نمونه: زیر مجموعه ای از جامعه «نمونه» نامیده می شود. یک نمونه خوب انتخاب شده حاوی بیشتر اطلاعات مربوط به یک جمعیت خاص استپارامتر.

اکنون باید از خود بپرسید که چگونه می توان نمونه ای را انتخاب کرد که به بهترین نحو کل جمعیت را نشان دهد.

تکنیک های نمونه برداری

نمونه گیری یک روش آماری است که به انتخاب مشاهدات فردی در یک جامعه می پردازد. برای استنباط دانش آماری در مورد یک جامعه انجام می شود.

سناریویی را در نظر بگیرید که در آن از شما خواسته می شود در مورد عادات غذایی نوجوانان در ایالات متحده نظرسنجی انجام دهید. در حال حاضر بیش از 42 میلیون نوجوان در ایالات متحده وجود دارد و این تعداد با خواندن این مقاله در حال افزایش است. آیا می توان سلامتی هر یک از این 42 میلیون نفر را بررسی کرد؟ معلومه که نه! به همین دلیل از نمونه گیری استفاده می شود. روشی است که در آن نمونه ای از جامعه به منظور استنتاج در مورد کل جامعه مورد مطالعه قرار می گیرد.

دو نوع اصلی از تکنیک های نمونه گیری وجود دارد:

نمونه گیری احتمالی
نمونه گیری غیر احتمالی

تکنیک های نمونه گیری – آمار و احتمال – مهدی مشایخی

در این مقاله، ما فقط بر روی تکنیک‌های نمونه‌گیری احتمالی تمرکز می‌کنیم، زیرا نمونه‌گیری غیراحتمالی در محدوده این مقاله نیست.

نمونه گیری احتمالی: این یک روش نمونه گیری است که در آن نمونه هایی از یک جمعیت بزرگ با استفاده از تئوری احتمال انتخاب می شوند. سه نوع نمونه گیری احتمالی وجود دارد:

نمونه گیری تصادفی: در این روش هر یک از اعضای جامعه شانس مساوی برای انتخاب در نمونه را دارند.

نمونه گیری تصادفی – آمار و احتمال – مهدی مشایخی

نمونه گیری سیستماتیک: در نمونه گیری سیستماتیک، هر n رکورد از جامعه به عنوان بخشی از نمونه انتخاب می شود. برای درک بهتر نحوه عملکرد نمونه گیری سیستماتیک به شکل زیر مراجعه کنید.

نمونه گیری سیستماتیک – آمار و احتمال – مهدی مشایخی

نمونه‌گیری طبقه‌ای: در نمونه‌گیری طبقه‌ای، از یک طبقه برای تشکیل نمونه‌هایی از یک جمعیت بزرگ استفاده می‌شود. یک قشر زیرمجموعه ای از جمعیت است که حداقل یک ویژگی مشترک دارد. پس از این، از روش نمونه گیری تصادفی برای انتخاب تعداد کافی آزمودنی از هر قشر استفاده می شود.

نمونه گیری طبقه ای – آمار و احتمال – مهدی مشایخی

حالا که می دانید اصول اولیه آمار، بیایید به جلو برویم و انواع مختلف آمار را مورد بحث قرار دهیم.

انواع آمار

دو تا هستندانواع آمار به خوبی تعریف شده:

آمار توصیفی
آمار استنباطی

آمار توصیفی

آمار توصیفی روشی است که برای توصیف و درک ویژگی های یک مجموعه داده خاص از طریق ارائه خلاصه های کوتاه در مورد نمونه و اندازه گیری داده ها استفاده می شود.

آمار توصیفی عمدتاً بر ویژگی های اصلی داده ها متمرکز است. خلاصه ای گرافیکی از داده ها ارائه می کند.

آمار توصیفی – آمار و احتمال – مهدی مشایخی

فرض کنید می خواهید تمام تی شرت های همکلاسی خود را هدیه دهید. برای بررسی میانگین سایز پیراهن دانش آموزان در یک کلاس درس، در آمار توصیفی سایز پیراهن تمامی دانش آموزان کلاس را ثبت کرده و سپس به حداکثر، حداقل و متوسط سایز پیراهن کلاس پی می برید.

آمار استنباطی

آمار استنباطی بر اساس نمونه ای از داده های گرفته شده از جامعه مورد نظر، استنباط و پیش بینی هایی را درباره یک جمعیت انجام می دهد.

آمار استنباطی یک مجموعه داده بزرگ را تعمیم می دهد و از احتمال برای نتیجه گیری استفاده می کند. این به ما اجازه می دهد تا پارامترهای داده را بر اساس یک مدل آماری با استفاده از داده های نمونه استنباط کنیم.

آمار استنباطی – آمار و احتمال – مهدی مشایخی

بنابراین، اگر همین مثال را برای یافتن اندازه پیراهن متوسط دانش‌آموزان در یک کلاس در نظر بگیریم، در آمار استنباطی، یک مجموعه نمونه از کلاس را انتخاب می‌کنید که اساساً چند نفر از کل کلاس هستند. شما قبلاً کلاس را به بزرگ، متوسط و کوچک گروه بندی کرده اید. در این روش، شما اساسا یک مدل آماری می سازید و آن را برای کل جمعیت کلاس گسترش می دهید.

بنابراین درک مختصری از آمار توصیفی و استنباطی بود. در بخش های بعدی، نحوه توصیفی و استنباطی را خواهید دیدآمار به طور عمیق کار می کند.

درک آمار توصیفی

آمار توصیفی به دو دسته تقسیم می شود:

اقدامات گرایش مرکزی
معیارهای تغییرپذیری (گسترش)

اقدامات مرکز

اندازه‌گیری‌های مرکز، معیارهای آماری هستند که خلاصه‌ای از یک مجموعه داده را نشان می‌دهند. سه معیار اصلی مرکز وجود دارد:

معیارهای مرکز - آمار و احتمال - مهدی مشایخی

میانگین: اندازه گیری میانگین تمام مقادیر یک نمونه میانگین نامیده می شود.

میانه: اندازه گیری مقدار مرکزی مجموعه نمونه را میانه می گویند.
مود: بیشترین مقدار تکراری در مجموعه نمونه به عنوان Mode شناخته می شود.

برای درک بهتر معیارهای گرایش مرکزی، اجازه دهید به یک مثال نگاه کنیم. مجموعه داده خودروهای زیر شامل متغیرهای زیر است:

مجموعه داده - آمار و احتمال - مهدی مشایخی

ماشین ها

مسافت پیموده شده در هر گالن (mpg)
نوع سیلندر (سیلندر)
جابجایی (disp)
قدرت اسب (اسب بخار)
نسبت واقعی محور (drat)

با استفاده از تجزیه و تحلیل توصیفی، می توانید هر یک از متغیرهای مجموعه داده های نمونه را برای میانگین، انحراف معیار، حداقل و حداکثر تجزیه و تحلیل کنید.

اگر بخواهیم میانگین یا میانگین اسب بخار خودروها را در بین جمعیت خودروها بدانیم، میانگین تمام مقادیر را بررسی و محاسبه می کنیم. در این حالت، مجموع اسب بخار هر ماشین را تقسیم بر تعداد کل ماشین ها می گیریم:
میانگین = (110+110+93+96+90+110+110+110)/8 = 103.625

اگر بخواهیم مقدار مرکزی mpg را در بین جمعیت خودروها بدانیم، مقادیر mpg را به ترتیب صعودی یا نزولی مرتب می کنیم و مقدار وسط را انتخاب می کنیم. در این حالت 8 مقدار داریم که یک ورودی زوج است. بنابراین ما باید میانگین دو مقدار میانی را در نظر بگیریم.
mpg برای 8 خودرو: 21،21،21.3،22.8،23،23،23،23
میانه = (22.8+23)/2 = 22.9

اگر بخواهیم متداول ترین نوع سیلندر را در بین جمعیت خودروها بشناسیم، مقداری را که بیشترین تعداد تکرار شده را بررسی می کنیم.در اینجا می بینیم که سیلندرها در دو مقدار 4 و 6 هستند. به مجموعه داده ها نگاهی بیندازید، می بینید که بیشترین مقدار تکراری 6 است. بنابراین 6 حالت ما است.

اقدامات گسترش

اندازه گیری پراکندگی، که گاهی به آن معیار پراکندگی نیز می گویند، برای توصیف تنوع در یک نمونه یا جمعیت استفاده می شود.

معیارهای گسترش - آمار و احتمال - مهدی مشایخی

درست مانند اندازه گیری مرکز، ما نیز معیارهای گسترش را داریم که شامل اقدامات زیر است:

محدوده: معیاری است که نشان می دهد مقادیر در یک مجموعه داده چقدر از هم جدا هستند. محدوده را می توان به صورت زیر محاسبه کرد:

محدوده = حداکثر (?_?) - حداقل (?_?)

اینجا،

حداکثر(?_?): حداکثر مقدار x

حداقل(?_?): حداقل مقدار x

ربع: ربع ها با تقسیم کردن مجموعه داده ها به یک چهارم، در مورد گسترش یک مجموعه داده به ما می گویند، درست مانند میانه آن را به نصف تقسیم می کند.

برای درک بهتر نحوه محاسبه چارک و IQR، اجازه دهید به یک مثال نگاه کنیم.

مثال معیارهای گسترش - آمار و احتمال - مهدی مشایخی

تصویر بالا نمرات 100 دانش آموز را نشان می دهد که از پایین ترین به بالاترین نمره مرتب شده اند. چارک ها در محدوده های زیر قرار دارند:

چارک اول (Q1) بین مشاهده 25 و 26 قرار دارد.
چارک دوم (Q2) بین مشاهده 50 و 51 قرار دارد.
ربع سوم (Q3) بین مشاهده 75 و 76 قرار دارد.

محدوده بین چارکی (IQR): اندازه گیری تغییرپذیری بر اساس تقسیم یک مجموعه داده به چارک است. محدوده بین چارکی برابر است با Q3 منهای Q1، یعنی IQR = Q3 – Q1
واریانس: توضیح می دهد که یک متغیر تصادفی چقدر با مقدار مورد انتظارش تفاوت دارد. مستلزم محاسبه مربع انحرافات است. واریانس را می توان با استفاده از فرمول زیر محاسبه کرد:

معیارهای واریانس گسترش - آمار و احتمال - مهدی مشایخی

x: نقاط داده فردی
n: تعداد کل نقاط داده
x̅: میانگین نقاط داده

انحراف تفاوت بین هر عنصر از میانگین است. با استفاده از فرمول زیر قابل محاسبه است:

انحراف = (?_? - μ)

واریانس جمعیت میانگین انحرافات مجذور است. با استفاده از فرمول زیر قابل محاسبه است:

معیارهای واریانس پراکندگی جمعیت - آمار و احتمال - مهدی مشایخی

واریانس نمونه میانگین مجذور اختلافات از میانگین است. با استفاده از فرمول زیر قابل محاسبه است:

Measures Of Spread Sample Variance – آمار و احتمال – مهدی مشایخی

انحراف استاندارد: اندازه گیری پراکندگی مجموعه ای از داده ها از میانگین آن است. با استفاده از فرمول زیر قابل محاسبه است:

اندازه گیری انحراف استاندارد گسترش - آمار و احتمال - مهدی مشایخی

برای درک بهتر نحوه محاسبه معیارهای گسترش، اجازه دهید به یک مورد استفاده نگاه کنیم.

بیان مشکل: دنریس 20 اژدها دارد. آنها دارای اعداد 9، 2، 5، 4، 12، 7، 8، 11، 9، 3، 7، 4، 12، 5، 4، 10، 9، 6، 9، 4 هستند. انحراف معیار را بررسی کنید.

بیایید گام به گام راه حل را بررسی کنیم:

مرحله 1: میانگین مجموعه نمونه خود را بیابید.

میانگین = 9+2+5+4+12+7+8+11+9+3 است

سپس میانگین آن اختلافات مجذور را مشخص کنید.

+7+4+12+5+4+10+9+6+9+4 / 20
μ=7

مرحله 2: سپس برای هر عدد، میانگین را کم کرده و حاصل را مربع کنید.

(x_i – μ)²

(9-7)²= 2²=4
(2-7)²= (-5)²=25
(5-7)²= (-2)²=4
و به همین ترتیب…

ما نتایج زیر را دریافت می کنیم:
4، 25، 4، 9، 25، 0، 1، 16، 4، 16، 0، 9، 25، 4، 9، 9، 4، 1، 4، 9

مرحله 3: سپس میانگین آن اختلافات مجذور را مشخص کنید.

4+25+4+9+25+0+1+16+4+16+0+9+25+4+9+9+4+1+4+9 / 20
⸫ σ² = 8.9

مرحله 4: جذر σ² را بگیرید.

σ = 2.983

برای درک بهتر معیارهای گسترش و مرکز، اجازه دهید یک دمو کوتاه با استفاده از زبان R اجرا کنیم.

آمار توصیفی در R

حالا بیایید جلو برویم و آمار توصیفی را در R پیاده سازی کنیم.

در این دمو، نحوه محاسبه میانگین، میانه، حالت، واریانس، انحراف استاندارد و نحوه مطالعه متغیرها با رسم هیستوگرام را خواهیم دید. این یک نسخه نمایشی کاملاً ساده است اما همچنین پایه و اساس هر الگوریتم یادگیری ماشینی را تشکیل می دهد.

مرحله 1: داده ها را برای محاسبه وارد کنید

set.seed(1)

#Generate random numbers and store it in a variable called data

>data = runif(20,1,10)

مرحله 2: میانگین را برای داده ها محاسبه کنید

#Calculate Mean

>mean = mean(data)

>print(mean)

[1] 5.996504

مرحله 3: میانه داده ها را محاسبه کنید

#Calculate Median

>median = median(data)

>print(median)

[1] 6.408853

مرحله 4: محاسبه حالت برای داده ها

#Create a function for calculating Mode

>mode <- function(x) { >ux <- unique(x) >ux[which.max(tabulate(match(x, ux)))]}

>result <- mode(data) >print(data)

[1] 3.389578 4.349115 6.155680 9.173870 2.815137 9.085507 9.502077 6.947180 6.662026

[10] 1.556076 2.853771 2.589011 7.183206 4.456933 7.928573 5.479293 7.458567 9.927155

[19] 4.420317 7.997007

>cat("mode= {}", result)

mode= {} 3.389578

مرحله 5: واریانس و انحراف Std را برای داده ها محاسبه کن

#Calculate Variance and std Deviation

>variance = var(data)

>standardDeviation = sqrt(var(data))

>print(standardDeviation)

[1] 2.575061

مرحله 6: یک هیستوگرام ترسیم کنید

#Plot Histogram

>hist(data, bins=10, range= c(0,10), edgecolor='black')

هیستوگرام برای نمایش فرکانس نقاط داده استفاده می شود:

اکنون که می دانید چگونه اندازه گیری را محاسبه کنیداز گسترش و مرکز، اجازه دهید به چند روش آماری دیگر که می‌توان برای استنباط اهمیت یک مدل آماری استفاده کرد، نگاهی بیندازیم.

آنتروپی

آنتروپی ناخالصی یا عدم قطعیت موجود در داده ها را اندازه گیری می کند. با استفاده از فرمول زیر قابل اندازه گیری است:

جایی که:
S – مجموعه ای از تمام نمونه ها در مجموعه داده
N – تعداد مقادیر کلاس مجزا
pi – احتمال رویداد

به دست آوردن اطلاعات

به دست آوردن اطلاعات (IG) نشان می‌دهد که یک ویژگی/متغیر خاص چه مقدار «اطلاعاتی» در مورد نتیجه نهایی به ما می‌دهد . با استفاده از فرمول زیر قابل اندازه گیری است:

H(S) – آنتروپی کل مجموعه داده S
| Sj | – تعداد نمونه هایی با مقدار j ویژگی A
|S| - تعداد کل نمونه ها در مجموعه داده S
v – مجموعه ای از مقادیر متمایز یک ویژگی A
H( Sj ) – آنتروپی زیرمجموعه نمونه ها برای ویژگی A
H(A, S) - آنتروپی یک ویژگی A

به دست آوردن اطلاعات و آنتروپی معیارهای آماری مهمی هستند که به ما امکان می دهند اهمیت یک مدل پیش بینی را درک کنیم. برای درک بهتر آنتروپی و IG، اجازه دهید به یک مورد استفاده نگاه کنیم.

بیان مسئله: برای پیش بینی اینکه آیا یک مسابقه را می توان با مطالعه شرایط آب و هوایی انجام داد یا خیر.

توضیحات مجموعه داده ها: مجموعه داده زیر شامل مشاهداتی در مورد شرایط آب و هوایی در یک دوره زمانی است.

متغیرهای پیش بینی کننده عبارتند از:

روز
چشم انداز
آفتابی
باد

متغیر هدف، متغیر «Play» است که با استفاده از مجموعه متغیرهای پیش‌بینی‌کننده قابل پیش‌بینی است. مقدار این متغیر تعیین می کند که آیا می توان یک بازی را در یک روز خاص انجام داد یا خیر.

برای حل چنین مشکلی می توانیم از درخت تصمیم استفاده کنیم. درختان تصمیم اساساً درختانی معکوس هستند که با تصمیم گیری در هر گره شاخه به ما کمک می کنند تا به نتیجه برسیم.

شکل زیر نشان می دهد که از 14 مشاهده، 9 مشاهده منجر به "بله" می شود، به این معنی که از 14 روز، مسابقه می تواند در 9 روز انجام شود. و اگر متوجه شده باشید، تصمیم با انتخاب متغیر Outlook به عنوان گره ریشه (بالاترین گره در درخت تصمیم) گرفته شده است.

مورد استفاده - آمار و احتمال - مهدی مشایخی

متغیر Outlook دارای 3 مقدار است،

آفتابی
ابری
باران

این 3 مقدار به گره های شاخه فوری اختصاص داده شده و برای هر یک از این مقادیر، امکان 'play=yes' محاسبه می شود. شاخه های «آفتابی» و «باران» خروجی ناخالصی دارند، به این معنی که ترکیبی از «بله» و «نه» وجود دارد. اما اگر متوجه متغیر 'overcast' شوید، یک زیرمجموعه 100٪ خالص ایجاد می کند. این نشان می‌دهد که متغیر ابری به خروجی معین و معینی منجر می‌شود.

این دقیقاً همان چیزی است که از آنتروپی برای اندازه گیری استفاده می شود. ناخالصی یا عدم قطعیت را محاسبه می کند و هر چه عدم قطعیت یا آنتروپی یک متغیر کمتر باشد، آن متغیر مهمتر است.

در درخت تصمیم، به گره ریشه بهترین ویژگی اختصاص داده می شود تا درخت تصمیم بتواند دقیق ترین نتیجه را پیش بینی کند. «بهترین ویژگی» اساساً یک متغیر پیش‌بینی‌کننده است که می‌تواند مجموعه داده‌ها را به بهترین شکل تقسیم کند.

اکنون سوال بعدی در ذهن شما باید این باشد که "چگونه تصمیم بگیرم که کدام متغیر یا ویژگی داده ها را به بهترین شکل تقسیم می کند؟"

خوب، این را می توان با استفاده از Information Gain و Entropy انجام داد.

هنگامی که متغیر "چشم انداز" به گره ریشه اختصاص داده می شود، با محاسبه آنتروپی شروع می کنیم. از مجموع 14 مورد داریم:

9 مورد "بله"
5 مورد "نه"

آنتروپی عبارت است از:

محاسبه آنتروپی - آمار و احتمال - مهدی مشایخی

بنابراین، آنتروپی 0.940 را دریافت می کنیم که نشان دهنده ناخالصی یا عدم قطعیت است.

اکنون برای اطمینان از اینکه بهترین متغیر را برای گره ریشه انتخاب می کنیم، اجازه دهید تمام ترکیبات ممکن را بررسی کنیم.

تصویر زیر هر متغیر تصمیم و خروجی را نشان می دهد که می توانید با استفاده از آن متغیر در گره ریشه به دست آورید.

درختان تصمیم احتمالی - آمار و احتمال - مشایخی

گام بعدی ما محاسبه سود اطلاعات برای هر یک از این متغیرهای تصمیم گیری (چشم انداز، باد، رطوبت، دما) است. نکته ای که باید به خاطر داشت این است که متغیری که منجر به بالاترین IG می شود باید انتخاب شود زیرا دقیق ترین خروجی و اطلاعات را به ما می دهد.

کسب اطلاعات از ویژگی "باد"

درخت تصمیم باد - آمار و احتمال - مهدی مشایخی

از مجموع 14 مورد داریم:

6 مورد "درست"
8 مورد "نادرست"

کسب اطلاعات بادی – آمار و احتمال – Edureka

اطلاعات به دست آوردن ویژگی "چشم انداز"

چشم انداز درخت تصمیم - آمار و احتمال - مهدی مشایخی

از مجموع 14 مورد داریم:

5 مورد "آفتابی"
4 مورد " ابری "
5 مورد "بارانی"

اطلاعات به دست آوردن ویژگی "رطوبت"

رطوبت درخت تصمیم - آمار و احتمال - مهدی مشایخی

از مجموع 14 مورد داریم:

7 مورد "بالا"
7 مورد "عادی"

اطلاعات بدست آوردن رطوبت – آمار و احتمال – مهدی مشایخی

اطلاعات به دست آوردن ویژگی "دما"

دمای درخت تصمیم - آمار و احتمال - مهدی مشایخی

از مجموع 14 مورد داریم:

4 مورد "داغ"
6 مورد "خفیف"
4 مورد "باحال"

دمای به دست آوردن اطلاعات - آمار و احتمال - مهدی مشایخ

شکل زیر IG را برای هر ویژگی نشان می دهد. متغیر با بالاترین IG برای تقسیم داده ها در گره ریشه استفاده می شود. متغیر Outlook دارای بالاترین IG است، بنابراین به گره ریشه اختصاص داده می شود.

خلاصه به دست آوردن اطلاعات – آمار و احتمال – مهدی مشایخی

پس این همه بوددر مورد آنتروپی و به دست آوردن اطلاعات حال بیایید نگاهی به روش آماری مهم دیگری به نام ماتریس سردرگمی بیندازیم.

ماتریس سردرگمی

ماتریس سردرگمی جدولی است که اغلب برای توصیف عملکرد یک مدل طبقه‌بندی (یا «طبقه‌بندی‌کننده») روی مجموعه‌ای از داده‌های آزمایشی که مقادیر واقعی آن‌ها مشخص است، استفاده می‌شود.

اساسا، یک ماتریس سردرگمی به شما کمک می کند تا عملکرد یک مدل پیش بینی را ارزیابی کنید. این عمدتا در مسائل طبقه بندی استفاده می شود.

ماتریس سردرگمی یک نمایش جدولی از مقادیر واقعی در مقابل پیش بینی شده را نشان می دهد. با استفاده از فرمول زیر می توانید دقت یک مدل را محاسبه کنید:

طبرای درک اینکه چه چیزی True Negative، True Positive و غیره چیست، اجازه دهید یک مثال را در نظر بگیریم.

بیایید در نظر بگیریم که اطلاعاتی در مورد 165 بیمار به شما داده شده است که از این تعداد 105 بیمار دارای بیماری هستند و 50 بیمار باقیمانده بیماری ندارند. بنابراین شما یک طبقه بندی می سازید که با استفاده از این 165 مشاهدات پیش بینی می کند. از این 165 مورد، طبقه بندی کننده 110 بار "بله" و 55 بار "نه" را پیش بینی کرد.

بنابراین، به منظور ارزیابی کارایی طبقه‌بندی‌کننده، از یک ماتریس سردرگمی استفاده می‌شود:

ماتریس سردرگمی - آمار و احتمال - مهدی مشایخی

در شکل بالا،

'n' تعداد کل مشاهدات را نشان می دهد
Actual نشان دهنده مقادیر واقعی در مجموعه داده است
Predicted مقادیر پیش بینی شده توسط طبقه بندی کننده را نشان می دهد

ماتریس سردرگمی با مقایسه مقادیر واقعی با مقادیر پیش بینی شده، عملکرد طبقه بندی کننده را مطالعه می کند. در زیر برخی از اصطلاحات مربوط به ماتریس سردرگمی آورده شده است:

موارد مثبت واقعی (TP): اینها مواردی هستند که در آنها پیش بینی کردیم بله (آنها به این بیماری مبتلا هستند) و آنها نیز این بیماری را دارند.
منفی های واقعی (TN): ما پیش بینی کردیم نه، و آنها این بیماری را ندارند.
موارد مثبت کاذب (FP): ما پیش بینی کردیم بله، اما آنها در واقع این بیماری را ندارند. (همچنین به عنوان "خطای نوع I" شناخته می شود.)
منفی های کاذب (FN): ما پیش بینی کردیم نه،اما آنها در واقع این بیماری را دارند. (همچنین به عنوان "خطای نوع II" شناخته می شود.)

بنابراین اینها مفاهیم مهمی بودند که در آمار توصیفی مورد استفاده قرار گرفتند. حالا بیایید همه چیز را در مورد احتمال مطالعه کنیم.

احتمال

قبل از اینکه بفهمیم احتمال چیست، اجازه دهید یک تصور غلط بسیار رایج را روشن کنم. مردم معمولاً این سؤال را می پرسند:

چه رابطه ای بین آمار و احتمال وجود دارد؟

احتمال و آمار و رشته های مرتبط. احتمال یک روش ریاضی است که برای تجزیه و تحلیل آماری استفاده می شود. بنابراین مامی توان گفت که احتمال و آمار شاخه های به هم پیوسته ای از ریاضیات هستند که به تجزیه و تحلیل فراوانی نسبی رویدادها می پردازند.

حالا بیایید بفهمیم که احتمال چیست.

احتمال چیست؟

احتمال اندازه گیری میزان احتمال وقوع یک رویداد است. به بیان دقیق تر ، احتمال نسبت نتایج مطلوب به کل نتایج است:
(پیامدهای مطلوب) / (نتایج کل)

احتمالات همه نتایج همیشه به 1 می رسد. مثال معروف تاس پرتاب را در نظر بگیرید:

با انداختن تاس، 6 نتیجه ممکن به دست می آورید
هر احتمال فقط یک نتیجه دارد، بنابراین هر یک احتمال 1/6 دارد
به عنوان مثال، احتمال به دست آوردن عدد "2"روی تاس 1/6 است

حال بیایید سعی کنیم اصطلاحات رایج مورد استفاده در احتمال را درک کنیم.

اصطلاحات در احتمال

قبل از اینکه عمیقاً در مفاهیم احتمال غوطه ور شوید، مهم است که اصطلاحات اساسی مورد استفاده در احتمال را درک کنید:

آزمایش تصادفی: آزمایش یا فرآیندی که نتیجه آن را نمی توان با قطعیت پیش بینی کرد.
فضای نمونه: کل مجموعه ممکن از نتایج یک آزمایش تصادفی، فضای نمونه آن آزمایش است.
رویداد: یک یا چند نتیجه از یک آزمایش، رویداد نامیده می شود. زیر مجموعه ای از فضای نمونه است. دو نوع رویداد در احتمال وجود دارد:رویداد Disjoint: رویدادهای Disjoint هیچ نتیجه مشترکی ندارند. به عنوان مثال، یک کارت منفرد که از یک عرشه گرفته می شود نمی تواند پادشاه و ملکه باشد

توزیع احتمال

در این مقاله ما بر روی سه تابع توزیع احتمال تمرکز خواهیم کرد:

تابع چگالی احتمال
توزیع نرمال
تئوری حد مرکزی

تابع چگالی احتمال

تابع چگالی احتمال (PDF) مربوط به احتمال نسبی برای یک متغیر تصادفی پیوسته برای گرفتن مقدار معین است. PDF احتمال متغیری را می دهد که بین محدوده "a" و "b" قرار دارد.

نمودار زیر PDF یک متغیر پیوسته را در یک محدوده نشان می دهد. این نمودار معروف به منحنی زنگی است:

تابع چگالی احتمال - آمار و احتمال - مهدی مشایخی

ویژگی های PDF به شرح زیر است:

نمودار یک PDF در یک محدوده پیوسته خواهد بود
مساحت محدود شده توسط منحنی تابع چگالی و محور x برابر با 1 است
احتمال اینکه یک متغیر تصادفی مقداری بین a و b فرض کند برابر با مساحت زیر PDF است که با a و b محدود شده است.

توزیع نرمال

توزیع نرمال که به عنوان توزیع گاوسی شناخته می شود، توزیع احتمالی است که خاصیت متقارن میانگین را نشان می دهد. ایده پشت این تابع این است که داده های نزدیک به میانگین بیشتر از داده های دور از میانگین رخ می دهد. این استنباط می کند که داده های اطراف میانگین کل مجموعه داده را نشان می دهد.

مشابه PDF، توزیع نرمال به صورت یک منحنی زنگ ظاهر می شود:

توزیع نرمال - آمار و احتمال - مهدی مشایخی

نمودار توزیع نرمال به دو عامل بستگی دارد: میانگین و انحراف استاندارد

Mean: مکان مرکز نمودار را مشخص می کند
انحراف استاندارد: ارتفاع نمودار را تعیین می کند

اگر انحراف معیار بزرگ باشد، منحنی کوتاه و گسترده است:

منحنی انحراف استاندارد - آمار و احتمال - مهدی مشایخی

اگر انحراف معیار کوچک باشد، منحنی بلند و باریک است:

تئوری حد مرکزی

قضیه حد مرکزی بیان می‌کند که توزیع نمونه‌گیری میانگین هر متغیر تصادفی مستقل، در صورتی که حجم نمونه به اندازه کافی بزرگ باشد، نرمال یا تقریباً نرمال خواهد بود.

به بیان ساده، اگر جمعیت زیادی داشتیم که به نمونه‌ها تقسیم شده بود، میانگین همه نمونه‌های جامعه تقریباً برابر با میانگین کل جامعه خواهد بود. نمودار زیر درک واضح تری از قضیه حد مرکزی را نشان می دهد:

قضیه حد مرکزی – آمار و احتمال – مهدی مشایخی

دقت یا شباهت توزیع نرمال به دو عامل اصلی بستگی دارد:

تعداد امتیازات نمونه گرفته شده
شکل زیرینجمعیت

حال بیایید روی سه نوع اصلی احتمال تمرکز کنیم.

انواع احتمال

احتمال حاشیه ای

احتمال وقوع یک رویداد (p(A))، بدون شرط هیچ رویداد دیگری. برای مثال، احتمال اینکه یک کارت کشیده شود 3 است (p(3)=1/13).

می توان آن را به صورت زیر بیان کرد:

احتمال حاشیه ای – آمار و احتمال – مهدی مشایخی

احتمال مشترک

Joint Probability اندازه گیری دو رویداد در یک زمان است، یعنی p(A و B)، احتمال وقوع رویداد A و رویداد B. احتمال تقاطع دو یا چند رویداد است. احتمال تقاطع A و B را می توان p(A ∩ B) نوشت.

به عنوان مثال، احتمال اینکه یک کارت چهار باشد و قرمز =p(چهار و قرمز) = 2/52=1/26 باشد.

احتمال شرطی

احتمال وقوع یک رویداد یا نتیجه بر اساس وقوع یک رویداد یا نتیجه قبلی.
احتمال وقوع یک رویداد B احتمال وقوع رویداد با توجه به اینکه یک رویداد A قبلاً رخ داده است، است.

p(B|A) احتمال وقوع رویداد B است، با توجه به اینکه رویداد A رخ می دهد.
اگر A و B رویدادهای وابسته باشند، عبارت احتمال شرطی به صورت زیر داده می شود:
P (B|A) = P (A و B) / P (A)
اگر A و B رویدادهای مستقل باشند، عبارت احتمال شرطی به صورت زیر داده می شود:
P(B|A) = P (B)

مثال: با توجه به اینکه شما یک کارت قرمز کشیدید، احتمال اینکه آن چهار باشد چقدر است (p(four|red))=2/26=1/13. بنابراین از 26 کارت قرمز (با یک کارت قرمز)، وجود دارددو چهار هستند پس 2/26=1/13.

حالا بیایید به آخرین مبحث تحت احتمال نگاه کنیم.

قضیه بیز

قضیه بیز برای محاسبه احتمال شرطی استفاده می شود، که چیزی نیست جز احتمال وقوع یک رویداد بر اساس دانش قبلی از شرایطی که ممکن است با رویداد مرتبط باشد.

از نظر ریاضی، قضیه بیز به صورت زیر نمایش داده می شود:

در معادله بالا:

P(A|B): احتمال وقوع رویداد A با توجه به رویداد B
P(A): احتمال وقوع رویداد A
P(B): احتمال وقوع رویداد B
P(B|A): احتمال شرطی رویداد B با توجه به رویداد A به
طور رسمی، اصطلاحات قضیه بیزی به شرح زیر است:

A به عنوان گزاره شناخته می شود و B مدرکی است که
P(A) نشان دهنده احتمال قبلی گزاره است
P(B) نشان دهنده احتمال قبلی شواهد
P(A|B) است که
P(B|A) پسین نامیده می شود. بنابراین، قضیه
بیز را می توان به صورت زیر خلاصه کرد:

پسین=(احتمال).(احتمال پیشین گزاره)/احتمال پیشین ادله

برای درک بهتر این موضوع، اجازه دهید به یک مثال نگاه کنیم:

بیان مشکل: 3 کیسه را در نظر بگیرید. کیسه A شامل 2 توپ سفید و 4 توپ قرمز است. کیسه B شامل 8 توپ سفید و 4 توپ قرمز، کیف C شامل 1 توپ سفید و 3 توپ قرمز است. از هر کیسه 1 توپ می کشیم. اگر بدانیم که در مجموع دقیقاً 2 توپ سفید کشیده ایم، احتمال رسم یک توپ سفید از کیسه A چقدر است؟

سولن:

اجازه دهید A رویداد برداشتن یک توپ سفید از کیسه A باشد و اجازه دهید X رویداد انتخاب دقیقاً دو توپ سفید باشد.
ما Probability(A∣X) را می خواهیم، یعنی احتمال وقوع رویداد A با داده X
با تعریف احتمال شرطی،

ما باید دو احتمال را در سمت راست نماد مساوی پیدا کنیم.

ما می توانیم این مشکل را در دو مرحله حل کنیم:

مرحله 1: ابتدا Pr(X) را پیدا کنید. این می تواند به سه صورت اتفاق بیفتد:

سفید از A، سفید از B، قرمز از C
سفید از A، قرمز از B، سفید از C
قرمز از A، سفید از B، سفید از C

مرحله 2: Pr(A∩X) را پیدا کنید.

این مجموع عبارت (i) و (ii) بالا است

من فقط یک طرح برای حل این مشکل ترسیم کردم. این را به عنوان تکلیف در نظر بگیرید و پاسخ خود را در کامنت به ما بگوییدبخش.

بخش زیر به مفاهیم آمار استنباطی، که به عنوان استنتاج آماری نیز معروف است، می پردازد. تا اینجا در مورد آمار توصیفی و احتمال بحث کردیم، حالا اجازه دهید به چند موضوع پیشرفته تر نگاه کنیم.

استنتاج آماری

همانطور که قبلاً بحث شد، استنتاج آماری شاخه‌ای از آمار است که به شکل‌گیری استنتاج و پیش‌بینی درباره یک جامعه بر اساس نمونه‌ای از داده‌های گرفته‌شده از جامعه مورد نظر می‌پردازد.

سوالاکنون باید بپرسید، آیا اینطور استنتاج یا پیش‌بینی روی یک نمونه انجام می‌شود؟ پاسخ از طریق تخمین نقطه است.

تخمین نقطه چیست؟

تخمین نقطه ای مربوط به استفاده از داده های نمونه برای اندازه گیری یک مقدار است که به عنوان یک مقدار تقریبی یا بهترین تخمین یک پارامتر جمعیت ناشناخته عمل می کند.

دو اصطلاح مهم در مورد تخمین نقطه عبارتند از:

برآوردگر: تابع f(x) نمونه است که برای یافتن تخمین استفاده می شود.
برآورد: ارزش تحقق یافته یک برآوردگر.

به عنوان مثال، برای محاسبه میانگین یک جمعیت عظیم، ابتدا نمونه ای از جامعه را ترسیم کرده و میانگین نمونه را پیدا می کنیم. سپس از میانگین نمونه برای تخمین میانگین جامعه استفاده می شود. این اساساً تخمین نقطه ای است.

یافتن برآوردها

4 تکنیک آماری رایج وجود دارد که برای یافتن ارزش تخمینی مربوط به یک جامعه استفاده می شود:

روش لحظه ها: روشی است که برای تخمین پارامترهای جمعیت مانند میانگین جمعیت یا واریانس جمعیت استفاده می شود. به عبارت ساده، این شامل حذف حقایق شناخته شده در مورد جمعیت و گسترش آن ایده ها به یک نمونه است.
حداکثر احتمال: این روش از یک مدل و مقادیر موجود در مدل برای به حداکثر رساندن یک تابع درستنمایی استفاده می کند. این منجر به محتمل ترین پارامتر برای ورودی های انتخاب شده می شود.
برآوردگرهای بیز: این روش با به حداقل رساندن میانگین ریسک (انتظار متغیرهای تصادفی) کار می کند.
بهترین برآوردگرهای بی طرف: در این روش می توان از چندین تخمین زن بی طرف برای تقریب یک پارامتر استفاده کرد (که کدام یک "بهترین" است بستگی به پارامتری دارد که می خواهید پیدا کنید)

جدای از این چهار تخمینروش‌ها، روش تخمین دیگری نیز وجود دارد که به نام تخمین فاصله (فاصله اطمینان) شناخته می‌شود.

تخمین فاصله چیست؟

یک بازه، یا محدوده ای از مقادیر، که برای تخمین پارامتر جمعیت استفاده می شود، به عنوان تخمین فاصله شناخته می شود. تصویر زیر به وضوح نشان می دهد که تخمین فاصله ای در مقابل تخمین نقطه ای چیست. مقدار تخمینی باید بین حد اطمینان پایین و حد اطمینان بالا رخ دهد.

تخمین فاصله – آمار و احتمال – مهدی مشایخی

به عنوان مثال، اگر من اعلام کردم که 30 دقیقه طول می کشد تا به تئاتر برسم، این تخمین نقطه ای است. با این حال، اگر من اعلام کردم که بین 45 دقیقه تا یک ساعت طول می کشد تا به تئاتر برسم، این یک نمونه از تخمین فاصله است.

تخمین فاصله دو اصطلاح مهم آماری را به وجود می آورد: فاصله اطمینان و حاشیه خطا.

فاصله اطمینان چیست؟

فاصله اطمینان معیار اعتماد شماست که تخمین بازه شامل میانگین جمعیت است، ?.
آماردانان از یک فاصله اطمینان برای توصیف میزان عدم قطعیت مرتبط با تخمین نمونه از پارامتر جمعیت استفاده می کنند.
از نظر فنی، محدوده ای از مقادیر طوری ساخته شده است که احتمال مشخصی برای گنجاندن مقدار واقعی یک پارامتر در آن وجود دارد.

به عنوان مثال، شما از گروهی از صاحبان گربه نظرسنجی می کنید تا ببینید چند قوطی غذای گربه در سال خریداری می کنند. شما آمار خود را در سطح اطمینان 99 درصد آزمایش می کنید و فاصله اطمینان (100200) را بدست می آورید. یعنی فکر می کنید سالانه بین 100 تا 200 قوطی می خرند. و همچنین از آنجایی که سطح اطمینان 99٪ است، نشان می دهد که شما بسیار مطمئن هستید که نتایج درست هستند.

حاشیه خطا چیست؟

تفاوت بین تخمین نقطه ای و مقدار پارامتر جمعیت واقعی، خطای نمونه گیری نامیده می شود.
وقتی ? تخمین زده می شود، خطای نمونه گیری تفاوت ? – ̅x است. از آنجایی که ? معمولا ناشناخته است، حداکثر مقدار خطا را می توان با استفاده از سطح اطمینان محاسبه کرد.
حاشیه خطای E، برای یک سطح اطمینان معین، بیشترین فاصله ممکن بین تخمین نقطه و مقدار پارامتری است که تخمین زده است.

حاشیه خطا E را می توان با استفاده از فرمول زیر محاسبه کرد:

اینجا،

Z_c مقدار بحرانی یا فاصله اطمینان را نشان می دهد
? نشان دهنده انحراف استاندارد است
n نشان دهنده نمونه استاندازه

حالا بیایید بفهمیم که چگونه فواصل اطمینان را تخمین بزنیم.

تخمین سطح اعتماد

سطح اطمینان 'c'، احتمال این است که تخمین فاصله حاوی پارامتر جمعیت باشد. شکل زیر را در نظر بگیرید:

برآورد سطح اعتماد - آمار و احتمال - مهدی مشایخی

C ناحیه زیر منحنی نرمال بین مقادیر بحرانی است

امتیاز Z مربوطه را می توان با استفاده از جدول نرمال استاندارد محاسبه کرد

به عنوان مثال، اگر سطح اطمینان 90٪ باشد، به این معنی است که شما 90٪ مطمئن هستید که فاصله شامل میانگین جمعیت است، ?. 10٪ باقیمانده به طور مساوی (0.05 ) در دو طرف 'c' توزیع شده است (منطقه ای که شامل پارامتر جمعیت تخمین زده می شود)

طنمرات Z مربوطه مطابق جدول Z 1.645 ± است.

ایجاد فاصله اطمینان

فاصله اطمینان را می توان با دنبال کردن مراحل زیر ایجاد کرد:

شناسایی یک آمار نمونه: آماری را انتخاب کنید که از آن برای تخمین پارامتر جمعیت استفاده کنید (مثلاً میانگین نمونه)
انتخاب سطح اطمینان: سطح اطمینان عدم قطعیت یک روش نمونه گیری را توصیف می کند.
یافتن حاشیه خطا: بر اساس معادله قبلی که توضیح داده شد ، حاشیه خطا را بیابید
بازه اطمینان را مشخص کنید: فاصله اطمینان را می توان با استفاده از:
فاصله اطمینان = آمار نمونه ± حاشیه خطا پیدا کرد.

حال بیایید برای درک بهتر این مفاهیم به بیان مسئله نگاه کنیم.

بیان مسئله: یک نمونه تصادفی از 32 قیمت کتاب درسی از یک کتابفروشی کالج محلی گرفته شده است. میانگین نمونه 74.22 = ❑ ̅ و انحراف معیار نمونه S = 23.44 است. از سطح اطمینان 95 درصد استفاده کنید و حاشیه خطا را برای میانگین قیمت تمام کتاب های درسی در کتابفروشی بیابید.

شما با فرمول می دانید، E = ?_? * (?/√?)
E = 1.96 * (23.44/√32) ≈ 8.12

بنابراین، ما 95% اطمینان داریم که حاشیه خطای میانگین جمعیت (کلیه کتاب‌های درسی موجود در کتابفروشی) حدود8.12.

اکنون که ایده پشت فواصل اطمینان را می‌دانید، بیایید به موضوع بعدی، آزمایش فرضیه، برویم.

تست فرضیه

آماردانان از آزمون فرضیه استفاده می کنند تا به طور رسمی بررسی کنند که آیا فرضیه پذیرفته شده یا رد شده است. آزمون فرضیه یک تکنیک آماری استنباطی است که برای تعیین اینکه آیا شواهد کافی در نمونه داده‌ها وجود دارد که نشان دهد یک شرط خاص برای کل جامعه صادق است یا خیر، استفاده می‌شود.

برای زیر ویژگی های یک جامعه عمومی، یک نمونه تصادفی می گیریم و ویژگی های نمونه را تجزیه و تحلیل می کنیم. ما آزمایش می کنیم که آیا نتیجه شناسایی شده جامعه را به طور دقیق نشان می دهد یا نه و در نهایت نتایج آنها را تفسیر می کنیم. قبول یا نپذیرفتن فرضیه بستگی به درصدی دارد که از فرضیه به دست می آوریم.

برای درک بهتر این موضوع، اجازه دهید به یک مثال نگاه کنیم.

چهار پسر به نام‌های نیک، جان، باب و هری را در نظر بگیرید که در کلاس‌های تختخواب‌شو دستگیر شدند. از آنها خواسته شد به عنوان تنبیه در مدرسه بمانند و کلاس خود را تمیز کنند.

مثال آزمون فرضیه – آمار و احتمال – مهدی مشایخی

بنابراین، جان تصمیم گرفت که هر چهار نفر به نوبت کلاس خود را تمیز کنند. او طرحی در نظر گرفت که نام هر یک از آنها را روی چیت ها بنویسد و آنها را در یک کاسه بگذارد. هر روز باید اسمی را از کاسه می گرفتند و آن شخص باید کلاس را تمیز می کرد.

الان سه روزه که اسم همه اومده جز جان! با فرض اینکه این رویداد کاملا تصادفی و بدون سوگیری باشد، احتمال تقلب نکردن جان چقدر است؟

بیایید با محاسبه احتمال انتخاب نشدن جان برای یک روز شروع کنیم:

P (جان برای یک روز انتخاب نشد) = 3/4 = 75٪

احتمال در اینجا 75 درصد است که نسبتاً زیاد است. حال، اگر جان برای سه روز متوالی انتخاب نشود، احتمال به 42 درصد کاهش می یابد.

P (جان به مدت 3 روز انتخاب نشد) = 3/4 × 3/4× 3/4 = 0.42 (تقریبا)

حال بیایید شرایطی را در نظر بگیریم که جان 12 روز متوالی انتخاب نمی شود! این احتمال به 3.2٪ کاهش می یابد. بنابراین، احتمال تقلب جان نسبتاً زیاد می شود.

P (جان به مدت 12 روز انتخاب نشد) = (3/4) ^12 = 0.032 <?.??

برای اینکه آماردانان به یک نتیجه برسند، آنچه را که به عنوان مقدار آستانه شناخته می شود، تعریف می کنند. با در نظر گرفتن وضعیت فوق، اگر مقدار آستانه روی 5٪ تنظیم شود، نشان می دهد که اگر احتمال زیر 5٪ باشد، جان در حال فریب دادن راه خروج از بازداشت است. اما اگر احتمال بالاتر از مقدار آستانه باشد، جان فقط خوش شانس است و نام او انتخاب نمی شود.

آزمون احتمال و فرضیه دو مفهوم مهم را به وجود می آورد:

فرضیه صفر: نتیجه با فرض تفاوتی ندارد.
فرضیه جایگزین: نتیجه این فرض را رد می کند.

بنابراین، در مثال ما، اگر احتمال وقوع یک رویداد کمتر از 5٪ باشد، آن یک رویداد مغرضانه است، بنابراین فرضیه جایگزین را تأیید می کند.

برای درک بهتر تست فرضیه، یک نسخه آزمایشی سریع در بخش زیر اجرا خواهیم کرد.

آزمون فرضیه در R

در اینجا ما از مجموعه داده های gapminder برای انجام آزمایش فرضیه استفاده خواهیم کرد. مجموعه داده‌های گپ مایندر شامل فهرستی از 142 کشور به همراه مقادیر مربوط به امید به زندگی، تولید ناخالص داخلی سرانه و جمعیت، هر پنج سال یکبار، از سال 1952 تا 2007 است.

اولین قدم نصب و بارگذاری بسته gapminder در محیط R است:

#Install and Load gapminder package

install.packages("gapminder")

library(gapminder)

data("gapminder")

در مرحله بعد، مجموعه داده ها را با استفاده از تابع View() در R نمایش می دهیم:

#Display gapminder dataset

View(gapminder)

در اینجا نگاهی گذرا به مجموعه داده های ما داریم:

مرحله بعدی بارگذاری بسته معروف dplyr است که توسط R.

#Install and Load dplyr package

install.packages("dplyr")

library(dplyr)

گام بعدی ما مقایسه امید به زندگی در دو مکان (ایرلند و آفریقای جنوبی) و انجام آزمون t برای بررسی اینکه آیا این مقایسه از یک فرضیه صفر یا یک فرضیه جایگزین پیروی می کند.

#Comparing the variance in life expectancy in South Africa & Ireland

df1 <-gapminder %>%

select(country, lifeExp) %>%

filter(country == "South Africa" | country =="Ireland")

بنابراین، پس از اعمال آزمون t بر روی چارچوب داده (df1)، و مقایسه امید به زندگی، می توانید نتایج زیر را مشاهده کنید:

#Perform t-test

t.test(data = df1, lifeExp ~ country)

Welch Two Sample t-test

data: lifeExp by country

t = 10.067, df = 19.109, p-value = 4.466e-09

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

15.07022 22.97794

sample estimates:

mean in group Ireland mean in group South Africa

73.01725 53.99317

به میانگین در گروه ایرلند و در آفریقای جنوبی توجه کنید، می توانید ببینید که امید به زندگی تقریباً با مقیاس 20 متفاوت است. اکنون باید بررسی کنیم که آیا این تفاوت در ارزش امید به زندگی در آفریقای جنوبی و ایرلند واقعاً معتبر است و نه فقط از شانس محض به همین دلیل آزمون t انجام می شود.

به مقدار p که به آن مقدار احتمال نیز می گویند توجه ویژه ای داشته باشید. P-value یک اندازه گیری بسیار مهم در حصول اطمینان از اهمیت یک مدل است. گفته می شود که یک مدل تنها زمانی از نظر آماری معنادار است که مقدار p کمتر از سطح معناداری آماری از پیش تعیین شده، که در حالت ایده آل 0.05 است، باشد. همانطور که از خروجی می بینید، p-value 4.466e-09 است که مقدار بسیار کمی است.

در خلاصه مدل به پارامتر مهم دیگری به نام t-value توجه کنید. یک مقدار t بزرگتر نشان می دهد که فرضیه جایگزین درست است و تفاوت در امید به زندگی با شانس خالص برابر با صفر نیست. بنابراین در مورد ما، فرضیه صفر تایید نمی شود.

بنابراین اجرای عملی آزمون فرضیه با استفاده از زبان R بود.

با این کار به پایان این مقاله می رسیم. اگر سؤالی در مورد این موضوع دارید، لطفاً در زیر نظر دهید و ما به شما پاسخ خواهیم داد.

منتظر مقاله های بیشتر در مورد فناوری های روز باشید.

لینک حمایت مالی برای ادامه راه : اینجا کلیک کنید.

آدرس لینکدین من و جواب به سوالات شما : اینجا کلیک کنید.

انجام پروژه های ماشین لرنینگ و یادگیری عمیق در تلگرام : Mashayekhi_Ai@

منبع : https://www.edureka.co/blog/statistics-and-probability/

آمار و احتمال مهدی مشایخی ماشین لرنینگ هوش مصنوعی کاربرد هوش مصنوعی

مهدی مشایخی

مهدی مشایخی هستم. برنامه نویس هوش مصنوعی و پایتون در زمینه یادگیری ماشینی و عمیق. به همه کمک میکنم تا با هم رشد کنیم! من در توییتر: https://twitter.com/Mashayekhi_AI

شاید از این پست‌ها خوشتان بیاید