خب توی پست اولم در باره این صحبت کردم که فرق آمار با نظریه احتمال توی چی هست. الان اینجا درباره اینکه مدلسازی آماری کجا و چطوری میاد، ارتباط این دو رو به هم مربوط میکنه صحبت کنم.
برای شروع،بزارین یک مثال بگم.
فرض کن تعداد فروش یک فروشگاه اینترنتی کوچک از توزیع پواسون با پارامتر ۵ پیروی میکنه،
احتمال اینکه این فروشگاه در یک روز دقیقا دو تا سفارش بگیره چه قدره؟
چون توزیع احتمال رو دقیق میشناسیم و پارامترش رو هم میدونیم چیه پس میتونیم این احتمال رو محاسبه کنیم مگه نه؟
بنابراین با توجه به اینکه جامعه رو میشناسیم و ویژگی های اون رو بلدیم(پارامترش رو میشناسیم که ۵ است) میتونیم بگیم که احتمال اینکه این فروشگاه دقیقا دو بار سفارش بگیره تقریبا برابر ۰.۰۸۴ است.
اما سوالی که دارم این هست، توی دنیای کسب و کار هم ما همینطوری برخورد میکنیم؟
معلومه که نه ما تو دنیای کاربردی اصلا نه میدونیم توزیع چیه، نه میدونیم پارامتر چیه و.. هیچی نمیدونیم، تنها چیزی که میدونیم این هست که تعداد فروش های فروشگاه رو میدونیم که برای چند روز ثبت کرده.
فرض کن تعداد فروش ها به صورت زیر باشه.
۴-۵-۷-۱-۰-۸-۹-۳-۶-۵-۵-۳-۸-۰-۰-۱۰-۵-۳
حالا از بحث رابطه مفهوم آمار و رابطش با نظریه احتمال اینجا استفاده میکنم.
توی حالت قبل من میدونستم که توزیعم چی هست و اینکه پارامترش چی هست بنابراین میتونستم حساب کنم.
اما اینجا میایم برعکس به قضیه نگاه میکنیم، یعنی اول میایم به دو تا سوال جواب میدیم.
۱- توزیع مناسب با توجه به مفهوم مسئله چی میتونه باشه؟ که از بحث نظریه توزیع ها و کاربردهای هر یک مناسب ترین توزیعی که میتونیم در نظر بگیریم برای این مسئله پواسون است.(بعدا بیشتر درباره کاربرد هر یک از توزیع های اماری مینویسم)
۲- این توزیعی که انتخاب کردیم پارامترش چی باشه؟
ببینین بچه ها انتخاب توزیع و عدم انتخاب توزیع میشه رویکردی که ما حالا میخوایم به صورت ناپارامتری سوال رو حل کنیم یا پارامتری. که در اینجا رویکرد پارامتری رو در نظر میگیریم.
خب پس چی شد؟ تا اینجای کار فهمیدیم که ما نیاز داریم یک توزیع اولیه مناسب با توجه به ماهیت مسأله انتخاب کنیم. برای سوال دوم که تعیین پارامتر است میایم به سوال زیر جواب میدیم.
با توجه به نوع توزیعی که دارم، این پارامتر توزیع مقدارش چند باشه تا احتمال رخداد داده هام ماکسیمم باشه؟
یعنی میام برعکس به موضوع نگاه میکنم، من مشاهده رو دیدم، میام میگم مقدار پارامتر توزیع چی باشه که بیشترین احتمال رخداد رو بهش نسبت بده، منطقیه نه؟ چون چیزی که می بینم رو من قبول دارم پس میگم اینی که دارم باید بیشترین احتمال رخداد رو داشته باشه.
از طرفی میدونیم که احتمال اینکه دو تا مشاهده مستقل با هم رخ بدن برابر هست با ضرب احتمال های هر یک، پس ما هم اینجا احتمال رخ داد هر یک از نمونه ها رو باید ضرب کنیم، چون از نظر محاسباتی خیلی سنگین میشه لگاریتم احتمال هر یک رو حساب میکنم و ضرب رو به جمع تبدیل میکنم. همین.
بنابراین مسئله مازیمم کردن تابع هست همین.
در نتیجه کد زیر رو براش میتونم بنویسم.
با توجه به نتیجه ای که گرفتم، پارامتر ۴.۵۵۵ بهترین مقدار برای توزیع پواسونی است که داده ها براش فیت میشن.
و این یعنی تعداد فروش روزانه این فروشگاه از توزیع پواسون با پارامتر ۴.۵۵۵ پیروی میکنه.
نکته جالبی که وجود داره اینه که، چون امید ریاضی تابع احتمال پواسون برابر پارامتر اون هست، مقداری که برآورد میکنیم هم دقیقا برابر میانگین نمونه میشه.
با توجه به این نتیجه احتمال اینکه توی یک روز این فروشگاه فقط دو تا سفارش داشته باشه برابر ۰.۱۰۹ است.