مقدمه ای بر نظریه اطلاعات (قسمت دوم)

آنتروپی قانون جهانی زبان هاست
آنتروپی قانون جهانی زبان هاست


در قسمت قبلی مقدمه ای از نظریه اطلاعات را گفتیم و با مفاهیم اطلاعات و آنتروپی آشنا شدیم. در این قسمت سعی میکنیم ادامه این نظریه با احتمالات و تابع درستنمایی(likelihood) متصل کنیم.

آنتروپی قانون جهانی زبان هاست. مهم نیست شما از چه زبانی استفاده می کنید قوانین نظریه اطلاعات مشخص می کنند فراوانی ها چگونه توزیع می شود. دلایل مهمی برای این موضوع وجود دارد. این که چرا برخی از کلمات به صورت مشخصی در همه زبان ها پرتکرار تر از بقیه هستند و برخی کم تکرار تر هستند. روابط بین کلمات در یک دنبال نیز چنین قوانینی دارد.

اگر در حالت کلی تر مساله را ادامه دهیم می توان گفت اگر یک مجموعه از نمونه ها به صورت زیر داشته باشیم:

و آن ها از توزیع p زیر پیروی کنند:

و آن ها از توزیع  زیر پیروی کنند:
و آن ها از توزیع زیر پیروی کنند:

می توان فرمول cross-entropy را به صورت زیر هم نوشت:

دلیل این موضوع قانون اعداد بزرگ (the law of large numbers) در قالب قضیه Asymptotic equipartition property است. اگر n به سمت بی نهایت برود این مقدار دقیقا برابر با cross-entropy می شود. به این ترتیب لزومی به محاسبه p هم نیست چون نمونه های تکراری یا غیر تکراری به صورت اتوماتیک احتمال p را حساب می کنند. دلیل این موضوع این است که xi ها از توزیع p نمونه برداری شده اند.

بنابراین از دیدگاه احتمال بیزینی p همان احتمال داده ها و مشاهدات است (ناشناخته) و q مدلی (نظریه ای) است که ما برای درک آن داده استفاده می کنیم. ما همواره سعی میکنیم که q را تا جای ممکن به p نزدیک کنیم. همچنین گاه q را به احتمال پیشینی (a priori) تعبیر می شود و p احتمال پسینی (a posteriori) و اینکه ما اگر از احتمال پیشینی q برای درک واقعیت p استفاده کنیم از چقدر اطلاعات غافل مانده ایم.

ارتباط loglikelihood با نظریه اطلاعات

یکی از روش های inference برای یافتن بهترین پارامتر های یک مدل(احتمالاتی) بیشینه سازی likelihood است. likelihood لزوما یک تابع احتمال نیست و خواص آن را هم ندارد ولی در بیشتر مسایل ما با likelihood هایی سر و کار داریم که به صورت یک تابع احتمال پارامتری هستند. اگر داده های ما به صورت زیر باشند و از توزیع ناشناخته p آمده باشند داریم:

تابع likelihood به صورت زیر تعریف می شود:

چون شرط iid برای متغیر تصادفی X داریم:

ما به دنبال یافتن تتایی هستیم که likelihood داده ها را بیشینه کند. پس:

در بیشتر منابع وقتی به این نقطه میرسید گفته می شود که برای اینکه حاصلضرب را به جمع تبدیل کنیم لگاریتم می گیریم. گفته می شود این به ساده سازی محاسبات کمک می کند و واقعا هم اینطور است. اما گرفتن لگاریتم ما را از حوزه احتمال به نظریه اطلاعات می برد(این دو حوزه ارتباط بسیار نزدیک و تنگاتنگی دارند). پس طبق معمول لگاریتم میگیریم اما با دیدی متفاوت:

اگر تعداد نمونه ها بیشتر شود طبق قانون اعداد بزرگ می توان نوشت:

آخرین جمله بر طبق تعریف همان cross-entropy بین توزیع واقعی داده ها p و توزیع پیشنهادی q است.

یعنی بیشینه کردن likelihood معادل است با کمینه کردن آنتروپی متقاطع بین توزیع واقعی داده ها و توزیع پیشنهادی به عنوان مدلی که حاوی پارامتری برای دستکاری و در نهایت رسیدن نزدیک ترین مقدار به آنتروپی واقعی داده هاست. می توان همین کمینه کردن را به KL-divergence هم انجام داد. تفاوت آنتروپی متقاطع و KL-divergence تنها یک ثابت است که همان آنتروپی داده هاست. پس: