تو این مقاله قراره از پایه و به صورت کاملا ساده، تخمین درستنمایی بیشینه(MLE) رو براتون توضیح بدم...
وقتی از احتمال صحبت میکنیم، منظور این است که میزان احتمال توزیع همه نمونهها در کل را میدانیم و از این احتمال برای برداشت بخشی از نمونهها از کل استفاده میکنیم. به عنوان مثال یه جعبه پر از سیب و پرتغال را در نظر بگیرید. این جعبه شامل 3 سیب و 7 پرتغال است. محاسبه احتمال توزیع سیب در این جعبه برابر 0.3 و پرتغال 0.7 خواهد بود. به این معنا که اگر ما به صورت کاملا تصادفی بخواهیم از این جعبه میوه انتخاب کنیم به احتمال 0.3 سیب است و به احتمال 0.7 پرتغال است. این روش که از ویژگی کل استفاده میکنیم تا احتمال جزء را محاسبه کنیم، احتمال میگویند.
اما در آماره، ما میزان توزیع واقعی در کل جهان را نداریم و فقط به بخشی از این جهان دسترسی داریم. میخواهیم از این بخش محدود در دسترس استفاده کنیم و توزیع احتمال نمونهها در کل را تخمین بزنیم. به تابع توزیع واقعی جهان کل، پارامتر میگویند. که معمولا آماره را با «تتا هت» و پارامتر را با «تتا» نمایش میدهند.
برای اطلاعات بیشتر در زمینه آماره و احتمال، میتونید ویدئویی که در این زمینه ضبط شده رو مشاهده کنید:
https://www.aparat.com/v/c1Nzs
در یادگیری ماشین ما به پارامتر دسترسی نداریم و دادههای ما صرفا شامل بخشی از پارامتر است. که همین مسئله باعث میشود تا برای بدست آوردن تخمین بهتر، داده ها را به سه بخش آموزشی(Train)، اعتبارسنجی(Validation) و آزمایشی(Test) تقسیم کنیم.
هر یک از دادهها چند ویژگی (Feature) دارد که متناسب با این ویژگیها میتوان در نهایت این دادهها را متناسب با کاربرد مد نظر دستهبندی کرد. به عنوان مثال تصور کنید ما به تنها به 1000 نفر دسترسی داریم و میخواهیم با بررسی قد و وزن افراد، مرد یا زن بودن را تشخیص دهیم. بعد از بررسیهای اولیه احتمالا به توزیع زیر برای قد و وزن برسیم:
حال با توجه به توزیع بدست آمده میتوانیم بگوییم اگر قد را داشته باشیم با چه احتمالی مرد است یا زن. برای وزن هم به همین ترتیب. همانطور که مشخص است، توزیع را نرمال فرض کرده ایم. می توان از توزیع های دیگر احتمال نیز استفاده کرد.
به همین مقدار احتمال که برای داده ورودی در نظر می گیریم، درست نمایی یا likelihood می گویند. در حالت گسسته همان تابع جرم احتمال است و به شکل زیر نمایش میدهند:
همچنین برای حالت پیوسته برابر تابع چگالی احتمال است که به شکل زیر نمایش داده میشود:
که همانطور که گفته شد تابع درست نمایی از توزیع داده های در دسترس به دست آمده اند و تخمینی از کل است.
مفهوم توابع فوق که به صورت احتمال شرطی نوشته شده اند، به این معناست که در صورتی که داده های x را داشته باشیم، تخمین ما چگونه است! به عنوان مثال برای مثال دسته بندی خانم ها آقایون که زده شد، می توان گفت که با توجه به داده های محدودی که داریم، تخمین ما چگونه است!
با توجه به توضیحات داده شده، هر داده ورودی چند ویژگی دارد. در صورتی که مقدار هر ویژگی را داشته باشیم می توانیم با استفاده از تابع تخمین درستنمایی بگوییم با چه احتمالی، داده ورودی متعلق به کدام دسته است. همچنین دو تابع مربوط به قد و وزن را می توانیم با هم ترکیب کنیم و به تابعی مانند زیر برسیم:
حال که نمودار بالا را داریم، می توانیم با دادن مقادیر ویژگی های داده ورودی یعنی مقادیر وزن و قد، بگوییم با چه احتمالی داده ورودی ما مرد است و با چه احتمالی زن!
و سپس با مقایسه مقادیر احتمال، بگوییم مثلا داده ورودی مرد است یا زن. که با همین مقایسه که در نهایت احتمال هر دسته برای داده ورودی بیشتر باشد، داده را جزو آن دسته می داند، تخمین درستنمایی بیشینه یا Maximum Likelihood Estimation می گویند و به شکل زیر نمایش می دهند:
و تمام :)