مهدی رحمانی
مهدی رحمانی
خواندن ۳ دقیقه·۳ سال پیش

Maximum Likelihood Estimation (MLE) به زبان ساده

تو این مقاله قراره از پایه و به صورت کاملا ساده، تخمین درستنمایی بیشینه(MLE) رو براتون توضیح بدم...

فرق آماره و احتمال‌:

وقتی از احتمال صحبت می‌کنیم، منظور این است که میزان احتمال توزیع همه نمونه‌ها در کل را می‌دانیم و از این احتمال برای برداشت بخشی از نمونه‌ها از کل استفاده می‌کنیم. به عنوان مثال یه جعبه پر از سیب و پرتغال را در نظر بگیرید. این جعبه شامل 3 سیب و 7 پرتغال است. محاسبه احتمال توزیع سیب در این جعبه برابر 0.3 و پرتغال 0.7 خواهد بود. به این معنا که اگر ما به صورت کاملا تصادفی بخواهیم از این جعبه میوه انتخاب کنیم به احتمال 0.3 سیب است و به احتمال 0.7 پرتغال است. این روش که از ویژگی کل استفاده می‌کنیم تا احتمال جزء را محاسبه کنیم، احتمال می‌گویند.

اما در آماره، ما میزان توزیع واقعی در کل جهان را نداریم و فقط به بخشی از این جهان دسترسی داریم. می‌خواهیم از این بخش محدود در دسترس استفاده کنیم و توزیع احتمال نمونه‌ها در کل را تخمین بزنیم. به تابع توزیع واقعی جهان کل، پارامتر می‌گویند. که معمولا آماره را با «تتا هت» و پارامتر را با «تتا» نمایش می‌دهند.

برای اطلاعات بیشتر در زمینه آماره و احتمال، می‌تونید ویدئویی که در این زمینه ضبط شده رو مشاهده کنید:

https://www.aparat.com/v/c1Nzs

در یادگیری ماشین ما به پارامتر دسترسی نداریم و داده‌های ما صرفا شامل بخشی از پارامتر است. که همین مسئله باعث می‌شود تا برای بدست آوردن تخمین بهتر، داده ها را به سه بخش آموزشی(Train)، اعتبارسنجی(Validation) و آزمایشی(Test) تقسیم کنیم.

Likelihood:

هر یک از داده‌ها چند ویژگی (Feature) دارد که متناسب با این ویژگی‌ها می‌توان در نهایت این داده‌ها را متناسب با کاربرد مد نظر دسته‌بندی کرد. به عنوان مثال تصور کنید ما به تنها به 1000 نفر دسترسی داریم و می‌خواهیم با بررسی قد و وزن افراد، مرد یا زن بودن را تشخیص دهیم. بعد از بررسی‌های اولیه احتمالا به توزیع زیر برای قد و وزن برسیم:

حال با توجه به توزیع بدست آمده می‌توانیم بگوییم اگر قد را داشته باشیم با چه احتمالی مرد است یا زن. برای وزن هم به همین ترتیب. همانطور که مشخص است، توزیع را نرمال فرض کرده ایم. می توان از توزیع های دیگر احتمال نیز استفاده کرد.

به همین مقدار احتمال که برای داده ورودی در نظر می گیریم، درست نمایی یا likelihood می گویند. در حالت گسسته همان تابع جرم احتمال است و به شکل زیر نمایش می‌دهند:

همچنین برای حالت پیوسته برابر تابع چگالی احتمال است که به شکل زیر نمایش داده می‌شود:

که همانطور که گفته شد تابع درست نمایی از توزیع داده های در دسترس به دست آمده اند و تخمینی از کل است.

مفهوم توابع فوق که به صورت احتمال شرطی نوشته شده اند، به این معناست که در صورتی که داده های x را داشته باشیم، تخمین ما چگونه است! به عنوان مثال برای مثال دسته بندی خانم ها آقایون که زده شد، می توان گفت که با توجه به داده های محدودی که داریم، تخمین ما چگونه است!

Maximum Likelihood Estimation:

با توجه به توضیحات داده شده، هر داده ورودی چند ویژگی دارد. در صورتی که مقدار هر ویژگی را داشته باشیم می توانیم با استفاده از تابع تخمین درست‌نمایی بگوییم با چه احتمالی، داده ورودی متعلق به کدام دسته است. همچنین دو تابع مربوط به قد و وزن را می توانیم با هم ترکیب کنیم و به تابعی مانند زیر برسیم:

شکل فوق صرفا مثالی از ترکیب دو تابع تخمین درست نمایی است و مربوط به مثال قد و وزن نمی باشد. اما ترکیب دو تابع قد و وزن نیز شکلی مانند بالا اما با مقادیر متفاوت خواهد بود.
شکل فوق صرفا مثالی از ترکیب دو تابع تخمین درست نمایی است و مربوط به مثال قد و وزن نمی باشد. اما ترکیب دو تابع قد و وزن نیز شکلی مانند بالا اما با مقادیر متفاوت خواهد بود.


حال که نمودار بالا را داریم، می توانیم با دادن مقادیر ویژگی های داده ورودی یعنی مقادیر وزن و قد، بگوییم با چه احتمالی داده ورودی ما مرد است و با چه احتمالی زن!

و سپس با مقایسه مقادیر احتمال، بگوییم مثلا داده ورودی مرد است یا زن. که با همین مقایسه که در نهایت احتمال هر دسته برای داده ورودی بیشتر باشد، داده را جزو آن دسته می داند، تخمین درستنمایی بیشینه یا Maximum Likelihood Estimation می گویند و به شکل زیر نمایش می دهند:

و تمام :)

HiddenCluster.ir
شاید از این پست‌ها خوشتان بیاید