مردی سگی را گاز گرفت!

نویسنده: امیرمسعود جعفرپیشه

به گزارش واحد خبری نیم‌خط، «در شب گذشته، سگی، مردی را گاز گرفت». بله، درست متوجه شدید؛ سگی، مردی را گاز گرفت. نکند انتظار داشتید که واقعاً مردی، سگی را گاز گرفته باشد؟ مگر تاکنون چند مرد را دیده‌اید که سگی را گاز گرفته باشند؟ (البته شاید سگی که مردی را گاز گرفته باشد هم ندیده باشید!)

همان‌طور که دیدیم، دو گزاره‌ی در ظاهر مشابه، می‌توانند اطلاعات متفاوتی به ما بدهند. اما به‌راستی اطلاعات چه معنایی می‌تواند داشته باشد؟ آیا می‌توانیم تعریفی ریاضی برای اطلاعات داشته باشیم؟ و آیا اصلاً می‌توان مقدار اطلاعات موجود در یک پیام را سنجید؟ برای این کار خوب است سعی کنیم اطلاعات سه گزاره‌ی زیر را با هم مقایسه کنیم:

فردا خورشید از مشرق طلوع می‌کند.
فردا زلزله‌ای 8 ریشتری در تهران رخ می‌دهد.
فردا مدرسه‌ها به‌علت آلودگی هوا تعطیل می‌شوند.

به نظر شما کدام‌ یک از سه گزاره‌ی فوق، اطلاعات بیشتری به ما منتقل می‌کند؟ انتظار دارید که کدام یک از این گزاره‌ها تیترِ یک روزنامه‌ها شود؟ چرا هیچ روزنامه‌ای تیترِ یک خبری خودش را به «طلوع خورشید از مشرق» اختصاص نمی‌دهد؟

همان‌طور که احتمالاً حدس زده‌اید، گزاره‌ی «فردا زلزله‌ای 8 ریشتری در تهران رخ می‌دهد.»، بیشترین اطلاعات را به ما منتقل می‌کند ولی گزاره‌‌ی «فردا خورشید از مشرق طلوع می‌کند.» تقریبا هیچ اطلاعات جدیدی به ما اضافه نمی‌کند. اما چه چیزی بین این سه گزاره تفاوت ایجاد می‌کند؟

در زندگی روزمره وقتی می‌خواهیم اطلاعاتی در مورد یک فرد به دست آوریم، اصطلاحا آمار آن فرد را می‌گیریم! شاید خوب باشد در این جا نیز آمار گزاره‌های مطرح‌شده را بگیریم و سعی کنیم بر اساس مشاهدات روزمره‌ی خودمان، در مورد میزان اطلاعات هریک از گزاره‌ها نظر دهیم. طلوع خورشید از مشرق، یک حقیقت علمی است که همواره رخ می‌دهد. تعطیلی مدرسه‌ها (در دوران پیش از کرونا البته!)، هم پدیده‌ای است که گاه و بی‌گاه رخ می‌دهد. اما وقوع زلزله‌ای 8 ریشتری، اتفاقی نادر است که انتظار نداریم هر روز یا حتی هر سال رخ دهد.

مطابق نظریه‌ی شانون و در یک مدل ریاضی، میزان اطلاعات یک برآمد* آزمایش تصادفی، متناسب با احتمال وقوع آن برآمد است و هرچه احتمال وقوع آن برآمد کم‌تر باشد، اطلاعات بیشتری دارد. به بیان دقیق‌تر، میزان اطلاعاتی که از وقوع برآمد x که احتمال وقوع آن P(x) است، به‌دست می‌آید، برابر است با**:

در این حالت واحد اطلاعات را بیت می‌گویند (البته این بیت، با آن بیتی که معمولاً در اندازه‌گیری ظرفیت حافظه‌ها می‌شناسیم، لزوماً برابر نیست).

رابطه‌ی بالا چهار خاصیت مهم دارد. (سعی کنید با توجه به تعریف تابع اطلاعات، به چرایی هرکدام از آنها فکر کنید و یا مثال مناسبی بزنید.)

اطلاعات هر برآمد آزمایش تصادفی، کمیتی غیرمنفی است.
اگر P(A) بزرگ‌تر یا مساوی با P(B) باشد، آن‌گاه I(A) کوچک‌تر یا مساوی با I(B) است.
اگر P(A) = 1، آن‌گاه I(A) = 0.
اگر A و B دو برآمد کاملاً مستقل باشند، آن‌گاه اطلاعات توام آن دو برآمد، برابر جمع اطلاعات دو برآمد است. (برای بررسی چرایی، به خواصی که تابع لگاریتم دارد، توجه کنید.)

نکته‌ی جالب در مورد اطلاعات، معادل بودن آن با ابهام است. به بیان بهتر، وقتی که اطلاعاتی در مورد یک برآمد آزمایش تصادفی به‌دست می‌آوریم، عملاً ابهام ما در مورد آن برآمد از بین می‌رود یا کم می‌شود. مثلاً هنگامی که یک سکه را پرتاب می‌کنیم، احتمال آن‌که رو یا پشت بیاید، برابر با 1/2 است. بنابراین قبل از پرتاب سکه، در مورد آن‌که رو می‌آید یا پشت ابهام داریم ولی وقتی که رو آمد، به میزان

بیت اطلاعات به دست می‌آوریم و ابهام ما به‌طور کامل برطرف می‌شود.

برای آن‌که با معادل بودن مفهوم ابهام و اطلاعات بیشتر آشنا شویم، فرض کنید که امیر یک طرفدار جدی فوتبال و والیبال است. در ابتدای تابستان، او می‌داند که 16 تیم به مرحله یک‌هشتم نهایی یورو 2020 صعود کردند و 4 تیم نیز به مرحله نیمه نهایی لیگ والیبال ملت‌ها صعود کرده‌اند. اما برای انجام یک ماموریت کاری، امیر به یک مسافرت دو هفته‌ای می‌رود که در آن هیچ‌گونه دسترسی به اخبار ندارد. بنابراین امیر که علاقه‌مند است قهرمان مسابقه‌ها را بداند، در مورد قهرمان این مسابقه‌ها دچار ابهام می‌شود. اما پس از دو هفته و بازگشت به خانه، قهرمان این دو رویداد را می‌فهمد و ابهامش برطرف می‌شود. به نظر شما با فهمیدن قهرمان کدام‌یک از این دو رویداد، امیر اطلاعات بیشتری به دست می‌آورد؟ میزان این اطلاعات چقدر است؟ برای سادگی می‌توانید احتمال قهرمانی تمام تیم‌ها در هر یک از مسابقه‌ها را یکسان فرض کنید!

در واقعیت ممکن است برآمدهای مختلف یک آزمایش تصادفی، احتمال‌های برابر نداشته باشند. به‌عنوان مثال، بهتر نیست که احتمال قهرمانی آلمان را بیشتر از احتمال قهرمانی ولز بدانیم؟ (شاید به همین دلیل است که اگر ولز قهرمان یورو شود، شگفت‌زده خواهیم شد!). یا در یک منطقه‌ی نسبتاً خشک از نظر آب‌وهوایی، انتظار داریم که پیش‌بینی هوای روز بعد، بیشتر آفتابی باشد تا بارانی. مثلاً با توجه به وضعیت جوی یک منطقه، انتظار داریم که ایستگاه هواشناسی آن منطقه، 80 درصد اوقات وضعیت هوا را آفتابی اعلام کند و 20 درصد اوقات بارانی (با فرض آن‌که تنها همین دو پیش‌بینی را می‌تواند انجام دهد). حال اگر این ایستگاه هواشناسی اعلام کند که فردا هوا بارانی است، به میزان 2.322 بیت اطلاعات به ما می‌دهد و اگر اعلام کند که فردا هوا آفتابی است، به میزان 0.322 بیت به ما اطلاعات داده شده است.

اما این ایستگاه هواشناسی هر روز چه میزان اطلاعات به ما می‌دهد؟ برای پاسخ به این سوال باید میانگین اطلاعاتی را که این ایستگاه در هر روز به ما می‌دهد، محاسبه کنیم. مطابق تعریف، آنتروپی، متوسط اطلاعاتی است که می‌توان از برآمدهای مختلف یک آزمایش تصادفی انتظار داشت؛ اما از آن‌جایی که احتمال برآمدهای مختلف یک آزمایش تصادفی لزوماً برابر نیستند، برای محاسبه‌ی آنتروپی از میانگین وزن‌دار استفاده می‌کنیم. به‌عنوان مثال برای محاسبه‌ی آنتروپی مربوط به این ایستگاه هواشناسی، لازم است تا میانگین وزن‌دار اطلاعات ایستگاه هواشناسی در روزهای مختلف (که وزن‌ها همان احتمال بارانی یا آفتابی بودن هوا است) را محاسبه کنیم:

بنابراین آنتروپی این ایستگاه هواشناسی برابر با 0.722 بیت است و به این معنا است که این ایستگاه هواشناسی هر روز به‌طور متوسط، مقدار 0.722 بیت به ما اطلاعات می‌دهد. اما فرض کنید که ما در تاسیس این ایستگاه‌های هواشناسی محدودیت داشته باشیم؛ به نظر شما بهتر است این ایستگاه‌ها را در چه مناطقی تأسیس کنیم تا بیشترین میزان متوسط اطلاعات را به‌دست آوریم؟ (لازم است مناطقی را از نظر آب‌و‌هوایی بیابید که در آنها، این ایستگاه‌ها بیشترین میزان متوسطِ اطلاعات (آنتروپی) را دارند.)

همان‌طور که دیدیم، واژه‌ی سادهای مانند اطلاعات، می‌تواند دارای یک تعریف ریاضی و دقیق باشد که از قضا با شهود ما هم تا حد خوبی سازگار است. البته شاید جالب باشد بدانید که تعریف ارائه‌شده، تنها تعریف موجود برای اطلاعات نیست و تعریفهای دیگری هم برای اطلاعات و میزان آن، ارائه شده است. بنابراین شاید از این به بعد، هنگام جمع‌آوری اطلاعات -که یکی از بخش‌های مهم انجام یک پژوهش است- اولین سوالی که می‌پرسیم این باشد که به‌راستی در این‌جا چه تعریفی از اطلاعات مد نظر است؟

ضمناً فراموش نکنید که پاسخ‌های خود به سوالات متن را با رستا اینفو (@Rastaiha_info) به اشتراک بگذارید.

پانویس‌ها:

* در یک آزمایش تصادفی، به هر عضو از فضای نمونه یک برآمد گفته می‌شود. به عنوان مثال در پرتاب سکه، فضای نمونه آزمایش {رو، پشت} است و برآمدهای این آزمایش رو یا پشت است.

** برای محاسبه عبارت:

که به صورت لگاریتم P(x) در پایه (یا مبنای) 2 خوانده می‌شود، لازم است عددی را پیدا کنیم که اگر 2 را به توان آن عدد برسانیم، برابر P(x) شود. به عنوان مثال: