نوشته های محدثه رهنما

ارزیابی الگوریتم‌های طبقه‌بندی: تفاوت sensitivity و specificity

محدثه رهنما — Thu, 05 Jun 2025 18:32:15 +0330

برای ارزیابی الگوریتم‌های یادگیری ماشین، روش‌های متنوعی وجود دارد و هر کدام از دیدگاه‌های مختلفی، درستیِ نتایجِ الگوریتم‌ها را بررسی می‌کنند. در پست قبلی درباره‌ی تفاوت Precision و Recall صحبت کردم. این بار به سراغ دو مفهوم sensitivity و specificity رفتم و در انتها درباره‌ی منحنی Receiver Operating Characteristic یا ROC توضیح خواهم داد. اگر تازه وارد حوزه‌ی یادگیری ماشین شده‌اید و می‌خواهید درباره‌ی ارزیابی طبقه‌بندها بیشتر بدانید، پیشنهاد می‌کنم ابتدا پست مربوط به Precision و Recall را مطالعه کرده و سپس ادامه‌ی مطلب را بخوانید.یادآوریتعریف True Positive یا TP: ورودی برچسب یک دارد و الگوریتم نیز به درستی (True) برچسب یک (Positive) را تشخیص داده است.تعریف True Negative یا TN: ورودی برچسب صفر دارد و الگوریتم نیز به درستی (True) برچسب صفر (Negative) را تشخیص داده است.تعریف False Positive یا FP: ورودی برچسب صفر دارد و الگوریتم به اشتباه (False) برچسب یک (Positive) را تشخیص داده است.تعریف False Negative یا FN: ورودی برچسب یک دارد و الگوریتم به اشتباه (False) برچسب صفر (Negative) را تشخیص داده است.معیار Sensitivityهنگامی که بخواهیم عملکرد یک طبقه‌بند را در یک کلاس بر اساس Sensitivity بررسی کنیم، تمرکزمان روی تعداد مواردی است که برچسب آن کلاس به درستی تشخیص داده شده است. در یک طبقه‌بند دو کلاسه، میزان Sensitivity نشان می‌دهد که الگوریتم چند درصد از مواقعی که برچسب واقعی ۱ بوده ، درست تشخیص داده است.در این مثال از بین ۵ نمونه که برچسب واقعی آن‌ها ۱ است، ۴ مورد درست تشخیص داده شده و بنابراین میزان Sensitivity برابر است با 4/5 یا ۸۰٪ .اگر دقت کنید این همان معیار Recall است. در واقع Sensitivity نام دیگر Recall بوده و فرمول آن به صورت زیر است:معیار Specificityدر ارزیابی طبقه‌بندی یک الگوریتم، معیار Specificity در مقابل Sensitivity قرار دارد؛ از این جهت که بررسی می‌کند چند مورد از داده‌های با برچسب ۰ واقعی درست تشخیص داده شده است:در این حالت، از بین ۴ مورد که برچسب واقعی آن‌ها ۰ بوده، دو مورد درست تشخیص داده شده و بنابراین میزان Specificity برابر با ۵۰٪ است.برای مقایسه‌ی عملکرد الگوریتم‌ها روی یک مجموع داده،‌ می‌توان یک منحنی رسم کرد که محور افقی نشان‌دهنده‌ی نرخ False positive یا همان 1 منهای Specificity (متمم) و محور عمودی نیز نشان‌دهنده‌ی نرخ True positive یا همان Sensitivity باشد. به این منحنی Receiver Operating Characteristic یا ROC گویند. این منحنی را می‌توان برای ارزیابی الگوریتم‌هایی که خروجی‌ آن‌ها یک مقدار احتمالاتی است استفاده کرد؛ مانند الگوریتم‌های logistic regression ، SVM و شبکه‌های عصبی. برای الگوریتم‌هایی که خروجی آن‌ها به طور مستقیم برچسب داده‌هاست (مانند درخت تصمیم و knn) با اندکی تغییرات می‌توان نمودار ROC کشید. همچنین این روش ارزیابی برای مسائل باینری (دو کلاسه) مناسب است. برای هر الگوریتمی که بخواهیم این منحنی را رسم کنیم، کافی است حالت‌های مختلف به ازای threshold ها یا Hyperparameter های متفاوت (بسته به نوع الگوریتم) را در نظر بگیریم و مقادیر Sensitivity و Specificity را محاسبه کنیم. آنگاه نمودار ROC را رسم کنیم. برای نمونه مسئله‌ی ساده‌ای را در نظر بگیرید؛ فرض کنید می‌خواهیم از روی شاخص خون افراد، تشخیص دهیم که شخص سالم است یا مبتلا به سرطان. پس در اینجا فقط یک ویژگی داریم که همان شاخص خون افراد است و داده‌ها در یک بُعد قرار می‌گیرند. فرض کنید که ورودی‌ها ۱۰ تا هستند. برای تعیین مرز جداکننده، می‌توان threshold های مختلفی انتخاب کرد. اگر میزان این آستانه برابر ۴۰ باشد، مجموعه‌داده‌ها به این صورت جدا می‌شوند:در تصویر بالا، خط جداکننده‌ی قرمز نشان می‌دهد که هر داده‌ای که سمت چپ آن باشد برچسب آن سالم است و در غیر این صورت بیمار. به عبارت دیگر، هر فردی که شاخص خونش از ۴۰ کمتر باشد سالم بوده و بیش از ۴۰ نشان‌دهنده‌ی ابتلای او به سرطان است.همان‌طور که در تصویر مشاهده می‌شود، با انتخاب آستانه‌ی ۴۰ می‌توان از بین ۵ بیمار، ۴ مورد را درست تشخیص داد. پس میزان Sensitivity برابر با ۵÷۴ است یعنی ۰٫۸. برای محاسبه‌ی Specificity با توجه به تصویر بالا، از بین ۵ فرد سالم، سه نفر درست تشخیص داده شده است: ۵÷۳ یعنی ۰٫۶ و اگر ۱ منهای Specificity را در نظر بگیریم، نرخ False positive برابر با ۰٫۴. علت این که متمم Specificity محاسبه می‌شود، معنایی است که سطح زیر نمودار ROC نشان می‌دهد. سطح زیر نمودار یا area under the curve یا AUC شاخص ارزیابی دیگری است که پس از رسم نمودار ROC توضیح خواهم داد.رسم نمودار ROC برای مسئله‌ی تشخیص سرطانمرحله ۱:فرض کنیم میزان آستانه برابر با کمترین مقداری است که با توجه به مقادیر داده‌ها می‌تواند باشد:در این حالت همه‌ی موارد بیماری درست تشخیص داده شده و Sensitivity برابر ۱ است. اما همه‌ی موارد سالم به اشتباه بیمار برچسب می‌خورند. پس Specificity مساوی ۰ است که ما بنا به دلیلی که بیان شد، متمم آن یعنی ۱ را در نظر می‌گیریم. پس یک مرحله از نمودار ROC به صورت زیر است: مرحله ۲:میزان آستانه را به صورت زیر کمی جلوتر می‌بریم. بدین ترتیب همچنان Sensitivity برابر ۱ است. اما در این حالت از بین ۵ فرد سالم، یک نمونه را درست پیش‌بینی کردیم. پس میزان ممتم Specificity برابر است با ۰٫۸:مرحله ۳:میزان آستانه را جا به جا کرده و روی نمونه‌ی سوم می‌بریم. بدین ترتیب برای اولین بار Sensitivity کاهش می‌یاید و به عدد ۰٫۸ می‌رسد. همچنین متمم Specificity برابر با ۰٫۶ می‌شود:به همین ترتیب برای برای حالت‌های دیگر این نمودار را رسم می‌کنیم تا به شکل زیر برسیم:مهم‌ترین ویژگی نمودار ROC این است که می‌توان در مقالات از آن به صورت بصری برای مقایسه‌ی یک الگوریتم با سایر الگوریتم‌های طبقه‌بندی استفاده کرد. این کار با در نظر گرفتن سطح زیر نمودار یا AUC -که قبلاً اشاره شد- انجام پذیر است:در شکل بالا، سطح زیر نمودار ROC را مشاهده می‌کنید. بیشترین مقدار AUC برابر ۱ می‌تواند باشد. ممکن است در بخش ارزیابی مقاله‌ها مشاهده کنید که در یک دستگاه مختصات، برای مقایسه‌ی چندین الگوریتم متفاوت، چند ROC رسم می‌شود. هر چه AUC یک الگوریتم بیشتر باشد آن الگوریتم بهتر عمل می‌کند:منبع ۱منبع ۲

ارزیابی الگوریتم‌های طبقه‌بندی: تفاوت Precision و Recall

محدثه رهنما — Tue, 11 Mar 2025 19:26:06 +0330

منبع: اینترنتبرای ارزیابی عملکرد الگوریتم‌های طبقه‌بندی، دو معیار Precision و Recall کاربرد زیادی دارند. معمولاً فرمولِ این دو روش به دلیل شباهت زیاد، اشتباه گرفته می‌شوند. در این پست علاوه بر فرمول، به بررسی عمیق‌تری از مفهوم این دو معیار پرداخته می‌شود. برای مطالعه‌ی ادامه‌ی مطلب، باید با مفاهیم یادگیری ماشین، طبقه‌بندی، برچسب‌گذاری و مفهوم ارزیابیِ الگوریتم‌های طبقه‌بندی آشنا باشید.در الگوریتم‌های طبقه‌بندی دو کلاسه، Precision و Recall با نگاه به یکی از کلاس‌ها (کلاس مثبت یا برچسب 1) محاسبه می‌شود. این که کدام کلاس را مثبت در نظر می‌گیریم یا چه عددی به هر کلاس تخصیص می‌دهیم کاملاً قراردادی است؛ اما به طور معمول کلاسی که هدف مورد نظر ماست را مثبت و با برچسب یک در نظر می‌گیریم و کلاس مقابل را کلاس منفی با برچسب صفر. برای نمونه در مسئله‌ی تشخیص بیماری، برای طبقه‌بندی افراد می‌توانیم برچسب‌ها را اینطور تعریف کنیم؛ اگر فرد بیمار باشد برچسب یک و در غیر این صورت برچسب صفر دارد. در ارزیابی طبقه‌بندی، هدف ما این است که بررسی کنیم به ازای هر نمونه، الگوریتم موردنظر چقدر برچسبِ نمونه‌ی ورودی را درست پیش‌بینی می‌کند. پیش‌نیازتعریف True Positive یا TP: ورودی برچسب یک دارد و الگوریتم نیز به درستی (True) برچسب یک (Positive) را تشخیص داده است.تعریف True Negative یا TN: ورودی برچسب صفر دارد و الگوریتم نیز به درستی (True) برچسب صفر (Negative) را تشخیص داده است.تعریف False Positive یا FP: ورودی برچسب صفر دارد و الگوریتم به اشتباه (False) برچسب یک (Positive) را تشخیص داده است.تعریف False Negative یا FN: ورودی برچسب یک دارد و الگوریتم به اشتباه (False) برچسب صفر (Negative) را تشخیص داده است.هر دو حالت False Positive و False Negative خطا هستند و در نتیجه الگوریتم نباید این خطاها را داشته باشد. اما این که کاهش کدام یک از این دو خطا اهمیت بیشتری دارد کاملاً بستگی به نوع مسئله دارد. در نظر داشته باشید که معیار دقت (Accuracy) نمی‌تواند تفکیکی بین این دو خطا ایجاد کند.معیار دقت با توجه به هر دو کلاس مثبت و منفی محاسبه می‌شود. اما Precision و Recall تنها بر یکی از کلاس‌ها تمرکز دارند. اگر مسئله چند کلاسه باشد، با تمرکز بر کلاس مورد نظر در مقابل سایر کلاس‌ها محاسبه می‌شوند.معیار Precisionهنگام محاسبه‌ی Precision به دنبال این هستیم که الگوریتم، چند درصد از برچسب‌هایی را که ۱ تشخیص داده، درست بوده است.فرض کنید در یک مسئله‌ی دو کلاسه، نمونه‌های زیر را برای تست داریم که لیست برچسب‌های واقعی و برچسب‌های پیش‌بینی شده به صورت زیر است:برای محاسبه‌ی Precision، به برچسب‌های تشخیص داده شده نگاه می‌کنیم: در مجموع 6 نمونه هستند که برچسب آن‌ها «یک» تشخیص داده شده است. از این بین 4 نمونه از آن‌ها به درستی تشخیص داده شده‌اند. پس Precision = 4/6 یعنی تقریباً 66%.برای Precision، فرمول زیر بر اساس True Positive و False Positive تعریف شده است:معیار Recallهنگام محاسبه‌ی این معیار ارزیابی، هدف این است که بررسی کنیم که الگوریتمِ طبقه‌بندی در مورد نمونه‌هایی که برچسب واقعی آن‌ها یک است، چقدر درست عمل کرده است؟بار دیگر مثال قبل را در نظر بگیرید:در این حالت به برچسب‌های واقعی نگاه می‌کنیم: 5 نمونه هستند که برچسب واقعی آن‌ها یک است. 4 مورد درست تشخیص داده شده است. بنابراین Recall = 4/5 یعنی برابر با 80%. فرمول Recall به صورت زیر است:پیشنهاد من این است که اگر فرمول را فراموش می‌کنید، به مفهوم محاسبه‌ی این دو روش توجه کنید. صورت هر دو کسر برابر است. نکته‌ی مهم تشخیص این است که آیا می‌خواهیم درصد صحیح بودن برچسب‌های واقعی را محاسبه کنیم یا برچسب‌های پیش‌بینی شده. استفاده از ماتریس کانفیوژن هم برای این محاسبات کمک‌کننده است.

مفهوم انتروپی

محدثه رهنما — Tue, 28 Jan 2025 18:44:28 +0330

در برخی از الگوریتم‌های یادگیری ماشین، به مفهوم انتروپی برخورد می‌کنیم. به عنوان نمونه در برخی الگوریتم‌های طبقه‌بندی با درخت تصمیم، انتروپی کاربرد دارد. در این پست می‌خواهیم به درک بهتری از این مفهوم برسیم. قبل از خواندن این مطلب بهتر است با امید ریاضی و فرمول آن نیز آشنا باشید.منبع تصویرتعریف غافلگیریمفهوم انتروپی به میزان غافلگیری از یک پدیده مربوط می‌شود. این که ما چقدر از اتفاق افتادنِ یک رویداد شگفت‌زده می‌شویم. کمی بیشتر به مفهوم غافلگیر شدن فکر کنید...ما از وقوع چه اتفاقاتی تعجب می‌کنیم؟ پاسخ این است که هر چه احتمال رخدادن یک رویداد کمتر باشد، ما از اتفاق افتادنش بیشتر غافلگیر می‌شویم. پس می‌توان نتیجه گرفت که غافلگیری با احتمال رابطه‌ی عکس دارد:حال فرض کنید که احتمال اتفاق افتادن یک رویداد برابر با یک باشد؛ آنگاه میزان surprise هم برابر با یک خواهد شد. در صورتی که ما از اتفاق افتادنِ آن اصلاً متعجب نمی‌شویم و باید مقدار surprise برابر با صفر می‌شد. اما طبق فرمول بالا، میزان surprise برابر با یک می‌شود. پس بهتر است از یک عملگر ریاضی دیگر نیز کمک بگیریم. می‌توانیم به جای معکوس احتمال، از لگاریتم معکوس احتمال استفاده کنیم تا میزان غافلگیری را محاسبه کنیم:یادآوری: امید ریاضیاگر یک آزمایش تصادفی را به تعداد زیاد تکرار کنیم، میانگین اعداد مشاهده شده امید ریاضی نام دارد (منبع). امید ریاضی با فرمول زیر محاسبه می‌شود:با توجه به تعریفی که از غافلگیری و امید ریاضی داشتیم، می‌توان گفت که انتروپی برابر است با امید ریاضیِ غافلگیر شدن(!) یعنی انتظار داریم چقدر از رخ دادن یک رویداد تجعب کنیم؟! در فرمول امید ریاضی، مقادیر غافلگیریِ رویداد و احتمال رخدادن رخ دادن آن رویداد را جایگذاری می‌کنیم:با توجه به خواص لگاریتم، می‌توان فرمول انتروپی را به صورت زیر نوشت. در کتاب‌های آموزشی نیز انتروپی را با این فرمول نشان می‌دهند:منبع

فرق آمار با احتمال؟

محدثه رهنما — Fri, 11 Oct 2024 14:28:40 +0330

دو مبحث آمار و احتمال معمولاً در کنار هم تدریس می‌شوند. اما اکثر کسانی که این درس را در مدرسه یا دانشگاه گذرانده‌اند، به طور دقیق نمی‌دانند مرز بین آمار و احتمال چیست؟ چه مباحثی مربوط به دید آماری و کدام مفاهیم با دید احتمالاتی است و چه ارتباطی بین این دو وجود دارد؟بحث این پست درباره‌ی تفاوت آمار و احتمال است و منبع اصلیِ این نوشته، درس آمار و احتمال دانشگاه شریف در مکتب خونه است. احتمالهرگاه در یک مسئله، توزیع داده‌ها را بدانیم و بتوانیم پارامترهایی چون امید ریاضی و واریانسِ واقعی داده‌ها را محاسبه کنیم، آنگاه با احتمال (probability) سروکار داریم. به عنوان مثال می‌توانیم شانس اتفاق افتادن رویدادهای مختلف را با دانستن توزیع واقعی داده‌ها به سادگی محاسبه کنیم. در واقع در احتمال از کل به جز می‌رویم. آمارهرگاه توزیع واقعی داده‌ها را ندانیم و فقط بخش کوچکی از داده‌ها را در اختیار داشته باشیم، با علم آمار (statistics) مواجه می‌شویم. در این حالت سعی می‌کنیم که توزیع داده‌ها و پارامترهایی چون امید ریاضی و واریانس را تخمین بزنیم. دقت کنید که در آمار، نمی‌توانیم به توزیعِ واقعی -که از نظر ما پنهان است- برسیم؛ اما ممکن است بتوانیم توزیعی مشابه آن را پیدا کنیم. بر عکس احتمال، در آمار نگاه ما از جز به کل است (مشت نمونه خروار).این همانند کاری است که در الگوریتم‌های هوش مصنوعی و یادگیری ماشین انجام می‌شود. مثلاً در الگوریتم‌های طبقه‌بندی، ما تلاش می‌کنیم که کلاس‌ها را با کمترین خطا از هم تفکیک کنیم. در صورتی که ما همه‌ی داده‌های جهان را در اختیار نداریم و مجبوریم با داده‌های محدود، مسئله را حل کنیم. به همین دلیل است که در مسائل یادگیری ماشین امکان دارد به انواع خطاها، داده‌های پرت و استثناهای مختلف برخورد کنیم.سوال: وقتی همه‌ی داده‌های جهان را نداریم، چه نیازی به مطالعه‌ی احتمال است؟!حال که تفاوت آمار و احتمال را درک کردیم، این سوال به وجود می‌آید که ما در دنیای واقعی، دسترسی به همه‌ی داده‌ها و توزیع واقعی آن‌ها نداریم. پس چه نیازی به مطالعه‌ی احتمال داریم؟ پاسخ این است که ما ابتدا با استفاده از علم آمار، داده‌های محدود خود را بررسی می‌کنیم و سعی می‌کنیم که برای آن یک توزیع (مدل) را تخمین (estimate) بزنیم. سپس با کمک احتمال، سعی می‌کنیم که در دنیای واقعی، شانس احتمال رخداد یک رویداد را پیش‌بینی (predict) کنیم (منبع):

برچسب‌زنی مجموعه‌داده یا تعریف متغیر تصادفی؟

محدثه رهنما — Tue, 03 Sep 2024 16:08:09 +0330

منبع تصویراهمیت مفاهیم آمار و احتمال در تحلیل داده و درک الگوریتم‌های یادگیری ماشین بر کسی پوشیده نیست. هر چه دید عمیق‌تری از ریاضیات و آمار داشته باشیم، بهتر می‌توانیم مسائل یادگیری ماشین را درک کنیم. مبحثی که در این پست بررسی می‌کنیم، یکی از مفاهیم پایه‌ای در علم احتمال است که می‌خواهیم با دید یادگیری ماشین به آن نگاه کنیم. لازم به ذکر است که برای خواندن این پست باید با مفاهیم یادگیری ماشین و مسائل طبقه‌بندی (classification) آشنا باشید. منبع مطالب آمار و احتمال که در این مقاله بحث می‌شود، درس آمار و احتمال مهندسی در مکتب خونه است.ابتدا بهتر است برخی مفاهیم یادآوری شوند:فضای نمونه (sample space): مجموعه‌ی همه‌ی نتایج یک آزمایش تصادفی را فضای نمونه می‌نامند. پیشامد (outcome): به نتیجه‌ی یک آزمایش تصادفی، پیشامد گویند.رویداد (event): زیرمجموعه‌ای از فضای نمونه، رویداد نامیده می‌شود.حال به تعریف متغیر تصادفی توجه کنید:متغیر تصادفی، تابعی است که هر پیشامد از فضای نمونه را به مجموعه‌ی اعداد حقیقی نگاشت می‌کند.در مثالِ پرتاب سکه، فضای نمونه فقط شامل دو حالت است: شیر و خط. حال ممکن است تابعی را تعریف کنیم که به ازای پیشامد «شیر»، مقدار تابع برابر ۱ شود و به ازای «خط» مساوی با صفر. این اعداد کاملاً قراردادی هستند؛ به بیان دیگر اعداد دلخواه دیگری می‌توانند به جای صفر و یک انتخاب شوند. مهم این است که از این به بعد، بپیشامد «شیر» را با یک عدد می‌شناسیم.در ادامه به یک نمونه از مسائل یادگیری ماشین توجه کنید: مسئله‌ی شناسایی عدد در یک تصویر را در نظر بگیرید؛ فرض کنید تصاویری داریم که در هر کدام فقط یکی از ارقام صفر تا نُه نوشته شده‌است. هدف این است که با روش‌های پردازش تصویر، این عدد را شناسایی کنیم (این مثال در دسته‌ی مسائل ocr قرار می‌گیرد). در واقع قرار است که هر تصویر به یکی از کلاس‌های اعداد ۰ تا ۹ طبقه‌بندی شود. اگر این طبقه‌بندی را یک آزمایش تصادفی بدانیم، بنابراین فضای نمونه‌ی آن مجموعه‌ی اعداد صفر تا ۹ را شامل می‌شود. همچنین یکی از پیشامدها می‌تواند تصویری باشد که شامل عدد ۵ است. هر زیرمجموعه از فضای نمونه‌ی ۰ تا ۹ نیز یک رویداد محسوب می‌شود.با دقت در این مسئله، می‌توان به این نتیجه رسید که برچسب هر تصویر، همان متغیر تصادفی است. یعنی ما با برچسب زدن به مجموعه‌داده، تابعی تعریف می‌کنیم که هر تصویر را به یک عدد نگاشت می‌کند. در واقع ورودی تابع، تصویر موردنظر و خروجی، برچسب مورد انتظار است که همان متغیر تصادفی تلقی می‌شود.

صبر کردن با طعم توزیع نمایی!

محدثه رهنما — Fri, 09 Aug 2024 12:10:37 +0330

در پست‌های قبل درباره‌ی توزیع‌های پرکاربرد در آمار توضیح دادم. توزیع‌ برنولی، دوجمله‌ای، هندسی، فوق هندسی و پواسون از جمله پرکاربردترین توزیع‌هایی هستند که می‌توان بسیاری از رویدادهای روزمره را با آن‌ها مدل کرد. در این پست هم به توزیعی اشاره می‌کنم که در دنیای واقعی کاربردهای زیادی دارد. بهتر از قبل از مطالعه‌ی این پست، درباره‌ی متغیر تصادفی، تابع چگالی احتمال (PDF) و تابع توزیع تجمعی (CDF) اطلاعات داشته باشید. برای درک توزیع نمایی، لازم است تعریف توزیع برنولی و توزیع هندسی را مرور کنیم: توزیع برنولی مانند پرتاب یک سکه است که تنها دو حالت دارد: شیر و خط. اگر همین سکه را چند بار پرتاب کنیم و این کار را تا وقتی انجام دهیم که سکه شیر (نتیجه مطلوب) بیاید، تعداد خط آمدن‌ها (نتایج نامطلوب) از توزیع هندسی پیروی می‌کند. یعنی هر کار مشابه پرتاب سکه را که چند بار امتحان کنیم، تعداد نتایج غیر قابل قبول را بشماریم تا ببینیم بعد از چند بار تکرار به نتیجه‌ی قابل قبول می‌رسیم، با توزیع هندسی مدل می‌شود. حال به مثال زیر توجه کنید:فرض کنید ماشین‌های عبوری از یک خیابان را در نظر گرفتیم. از قبل مشاهده کردیم و می‌دانیم که در یک بازه‌ی زمانی مشخص (مثلاً یک دقیقه) به طور متوسط چند ماشین از این خیابان عبور می‌کند. حال بار دیگر در به این خیابان می‌آییم و یک لحظه را در نظر می‌گیریم. می‌خواهیم محاسبه کنیم که چقدر باید از این لحظه بگذرد تا اولین ماشین از این خیابان رد بشود. میزان زمانی که باید منتظر باشیم تا اولین ماشین را ببینیم، از توزیعی تبعیت می‌کند که به آن توزیع نمایی می‌گویند. به بیان دیگر اگر تعداد تکرارها در توزیع هندسی به بی‌نهایت میل کند، به توزیع نمایی می‌رسیم.بنابراین هر مسئله‌ای را که در انتظار رخداد یک اتفاق مشخص هستیم می‌توانیم با توزیع نمایی مدل کنیم. مانند موارد زیر:۱− چه مدت زمانی طول می‌کشد تا تاکسی اینترنتی درخواست ما را قبول کند؟۲− چقدر منتظر بمانیم تا اولین مشتری وارد فروشگاه شود؟۳− آیا احتمال دارد که مشتری قبل از اتمام ضمانت یک کالا (که مدت آن از قبل مشخص است)، نیاز به دریافت خدمات پس از فروش داشته باشد؟۴− چقدر طول می‌کشد تا مرکز تماس، تلفن بعدی را دریافت کند؟۵− یک قطعه‌ی ماشین تا چه مدت بدون خرابی کار می‌کند؟فرمول‌های توزیع نماییبرای توزیع نمایی، باید بدانیم که به طور متوسط چند بار اتفاق مورد نظر ما رخ می‌دهد؛ مثلاً در مثال ماشین‌های عبوری از خیابان، از روی مشاهدات قبلی بررسی می‌کنیم که در واحد زمانی مشخص (یک دقیقه، یک ساعت و ...)، میانگین تعداد ماشین‌هایی که از این خیابان عبور می‌کنند چقدر است. این میزان متوسط را با حرف لاتین «λ» نمایش می‌دهند.اگر متغیر تصادفی X از توزیع نمایی با پارامتر λ تبعیت کند، آنگاه تابع چگالی احتمال آن به صورت زیر است: در واقع احتمال P(X) با انتگرال گرفتن از f(X) محاسبه می‌شود. از طرفی می‌دانید تابع توزیع تجمعی F(X) می‌تواند از تابع چگالی احتمال f(X) به دست آید؛ یعنی F(X) برابر است با P(X<=x). این تابع برای توزیع نمایی به صورت زیر نوشته می‌شود:در اینجا مفهوم توزیع تجمعی برای متغیر تصادفی X به این معناست: چقدر احتمال دارد قبل از x واحد زمانی، نتیجه مطلوب رخ دهد؟ یعنی میزان احتمال P(X<=x) برابر چند است؟پی‌نوشت: اگر علاقه به اثبات فرمول‌ها دارید، می‌توانید تدریس کامل دکتر شریفی زارچی از این مبحث را در مکتب‌خونه مشاهده کنید. تا این جا متوجه شدیم که صبر کردن برای هر اتفاق را می‌توانیم با توزیع نمایی مدل کنیم. حال به پاسخ این سوال کمی فکر کنید: اگر بدانیم که در t زمان گذشته هیچ رویدادی رخ نداده است، آیا می‌توانیم نتیجه بگیریم که فعلاً قرار نیست رویداد مورد نظر اتفاق بیافتد؟ مثلاً می‌دانیم که از صبح که فروشگاه باز شده تا الان که ۲ ساعت گذشته، هنوز هیچ مشتری مراجعه نکرده است. با دانستن این اطلاعات آیا می‌توان نتیجه گرفت که تا یک ساعت دیگر هم مشتری نخواهد آمد؟این موضوع را می‌توان با فرمول احتمال شرطی بررسی کرد. فرض کنیم می‌دانیم که a واحد زمانی گذشته و هنوز اتفاق مورد نظر رخ نداده است؛ یعنی Xx) را محاسبه کنیم لازم است NOT آن محاسبه شود؛ یعنی P(X>x)=1-P(X<=x). پس از جایگذاری داریم:در نهایت به این نتیجه می‌رسیم که دانستن اینکه قبل از این لحظه اتفاق مورد نظر نیافتاده هیچ تأثیری در آینده ندارد (پس به آینده امیدوار باشید!). به بیان دیگر تابع توزیع نمایی بی‌حافظه است.

توزیع هندسی، فوق هندسی و پواسون

محدثه رهنما — Sat, 01 Jun 2024 14:52:53 +0330

بسیاری از رویدادهایی که روزانه با آن‌ها در ارتباطیم، می‌توانند به صورت یک توزیع آماری مدل‌سازی شوند. قبلاً درباره‌ی توزیع برنولی و دو جمله‌ای و نمونه‌هایی از رویدادهای واقعی صحبت کردم. در این پست می‌خواهم به سه توزیع پرکاربرد دیگر اشاره کنم و با هم مثال‌های عینی از آن‌ها را بررسی کنیم. برای مطالعه‌ی بیشتر می‌توانید به دوره آمار و احتمال مهندسی دانشگاه شریف در سایت مکتبخونه مراجعه کنید.منبع عکستوزیع هندسیبرای فهم توزیع هندسی، باید ابتدا با توزیع برنولی آشنا باشید: متغیر تصادفی گسسته‌ای را در نظر بگیرید که فقط دو حالت دارد؛ حالت اول با احتمال p و حالت دوم با احتمال (q=1-p) رخ می‌دهد. این متغیر تصادفی از نوع برنولی است. مثال کلاسیک توزیع برنولی پرتاب یک سکه است. در زندگی روزمره هم با توزیع برنولی سر و کار داریم؛ مانند احتمال بیمار/سالم بودن فرد و یا احتمال شکست/موفقیت در آزمون. حال اگر آزمایش برنولی را چند بار انجام دهیم و این کار را تا جایی ادامه دهیم تا پس از چند بار نتیجه‌ی غیر قابل قبول، به نتیجه‌ی دلخواه (مثلا موفقیت) برسیم این یک توزیع هندسی است.تفاوت توزیع دوجمله‌ای و توزیع هندسی در این است که در توزیع دو جمله‌ای، آزمایش برنولی را به تعداد دلخواه (مثلا n بار) انجام می‌دهیم و تعداد نتایج شکست/موفقیت را می‌شماریم. اما در توزیع هندسی، آن قدر آزمایش برنولی را تکرار می‌کنیم تا به شکست/موفقیت برسیم و پس از آن انجام آزمایش متوقف می‌شود. برای مثال اگر n بار یک سکه را پرتاب کنیم و تعداد اینکه k بار رو آمده باشد را بشماریم، این یک توزیع دو جمله‌ای است. حال اگر آن قدر سکه را پرتاب کنیم تا پشت بیاید، شمارش تعداد رو آمدن از توزیع هندسی پیروی می‌کند.برای درک بیشتر، دو مثال زیر را در نظر بگیرید:۱. فرض کنید یک شرکت می‌خواهد از مشتریان خود درباره‌ی یک کالای خاص نظرسنجی کند. برای این کار از چند کارشناس می‌خواهد که با مشتریان تماس بگیرند و نظر آن‌ها را درباره‌ی کالای خریداری شده بپرسند. در این جا باید با چند مشتری تماس گرفته شود؟ آیا لازم است از تمامی مشتریان نظرسنجی کرد؟ یا می‌توان با بدون پرسیدن نظر همه‌ی مشتریان میزان رضایت از این کالا را ارزیابی کرد؟در این مورد می‌توان از توزیع هندسی استفاده کرد. با مدل کردن اینکه از بین n کالای تولید شده، چندمین کالا ممکن است معیوب باشد، شرکت می‌تواند تصمیم بگیرد که حداقل بهتر است با چند مشتری تماس گرفته شود؟۲. در نمونه‌ی دیگری، فرض کنید که حوادثِ رخ داده در یک کارخانه مورد بررسی و تحلیل قرار گیرد. یک مهندس ایمنی حدس می‌زند که احتمالاً ۴۰ درصد حوادث به علت عدم رعایت دستورالعمل‌ها اتفاق افتاده است. در اینجا تعداد n گزارشِ حوادث به صورت تصادفی انتخاب می‌شود. سپس هر گزارش مطالعه می‌شود تا جایی که موردی یافت شود که علت حادثه، عدم رعایت دستورالعمل‌ها باشد.توزیع فوق هندسیفرض کنید مجموعه‌ای داریم که N1 عضو آن دارای ویژگی خاصی باشند؛ در حالی که N2 عضو آن فاقد این ویژگی هستند. پس در مجموع N1+N2 نمونه داریم. می‌خواهیم از این مجموعه x مورد را (بدون جایگذاری) انتخاب کنیم. چقدر احتمال دارد که k تا از این x مورد دارای آن ویژگی خاص باشند. مثال ساده‌ی توزیع فوق هندسی که می‌تواند درک بهتری از این توزیع بدهد بدین شرح است: سبدی را در نظر بگیرید که تعدادی توپ آبی و قرمز در آن قرار دارد. اگر بخواهیم x توپ از آن انتخاب کنیم، احتمال اینکه k توپ قرمز انتخاب شود چقدر است؟اما مثال‌های کلاسیک نمی‌توانند کاربرد واقعی آمار را در واقعیت نشان دهند، پس بهتر است چند مثال کاربردی در حوزه‌های مختلف را بررسی کنیم:به عنوان مثال هنگام کنترل کیفیت محصولات در یک کارخانه، ممکن است کارشناس تصمیم بگیرد که از بین تعدادی از محصولِ تولید شده، x عدد را انتخاب کند. احتمال اینکه k محصول معیوب باشد با کمک توزیع فوق هندسی محاسبه می‌شود.نمونه‌ی دیگر زیست شناسانی هستند که جمعیت جانوران را مطالعه می‌کنند، می‌توانند با استفاده از توزیع فوق هندسی محاسبه کنند که در یک منطقه‌ی مشخص، چقدر احتمال دارد تا چند نمونه گونه‌ی جانوری که در خطر انقراض قرار دارد یافت شود؟توزیع پواسونفرض کنید در یک بازه‌ی زمانی مشخص، تعداد رخداد یک رویداد را بشماریم. به شرطی که هر رویداد از بقیه مستقل باشند و با نرخ میانگین مشخصی رخ می‌دهند. برای نمونه تعداد ماشین‌هایی که طی یک ساعت از یک خیابان می‌گذرند از توزیع پواسون تبعیت می‌کند.نمونه‌های از توزیع پواسون عبارتند از:1. تعداد بازدیدکنندگان یک سایت در بازه‌ی زمانی مشخص می‌تواند از توزیع پواسون تبعیت کند. 2. تعداد مشتریانی که در بازه‌ی زمانی دلخواه (مثلاً یک ساعت) وارد بانک می‌شوند هم با توزیع پواسون مدل می‌شود؛ به شرطی که مشتریان با هم هماهنگ نکرده باشند یا به عبارت دیگر ورود مشتری‌ها به بانک مستقل از هم باشند.3. تعداد ماشین‌های عبوری از یک خیابان نیز می‌تواند با توزیع پواسون مدل شود.منبع مثال‌های توزیع هندسی :https://www.statisticshowto.com/geometric-distribution-real-life-examples/منبع مثال‌های توزیع فوق هندسی:https://www.quora.com/What-is-the-real-life-examples-of-Hypergeometric-Distribution

توزیع برنولی و دو جمله‌ای در دنیای واقعی

محدثه رهنما — Tue, 16 Apr 2024 18:37:44 +0330

برای ساده سازی مفاهیم آمار و احتمال، معمولاً مثال‌هایی مانند پرتاب سکه و تاس مطرح می‌شود که در عمل کاربردی نیستند. این نمونه‌های کلاسیک برای درک بهتر فرمول‌ها مفیدند؛ اما برای اینکه بتوان از مفاهیم آمار در زندگی روزمره استفاده کرد، ضروری است تا با مثال‌های عینی در واقعیت نیز آشنا شد. با این کار مدل‌سازی و نگاشت واقعیت به دنیای ریاضیات ساده‌تر خواهد شد.منبع عکسدر این پست می‌خواهم درباره‌ی توزیع برنولی و دو جمله‌ای، کاربردها و نمونه‌های واقعی این دو توزیع معروف توضیح دهم. قبل از اینکه ادامه‌ی این نوشته را بخوانید، بهتر است درباره‌ی مفاهیم متغیر تصادفی و احتمال اطلاعات داشته باشید. تعریف توزیع برنولی به صورت زیر است:توزیع برنولی: اگر اتفاقی را در نظر بگیریم که تنها دو حالت دارد، در صورتی که احتمال رخداد یکی از حالت را p در نظر بگیریم، احتمال رخداد حالت مقابل برابر با q می‌شود (q=1-p). این تعریف آزمایش برنولی است و مثال کلاسیک آن، پرتاب یک سکه است.در مقابل توزیع دو جمله‌ای به این ترتیب تعریف می‌شود: اگر یک آزمایش برنولی را n بار تکرار کنیم به آن توزیع دو جمله‌ای می‌گوییم.مثلاً اگر یک سکه را چند بار پرتاب کنیم این یک توزیع دو جمله‌ای است. از توزیع دو جمله‌ای برای بررسی رویدادهایی استفاده می‌شود که هدف آن شمارش تعداد موفقیت‌ها باشد. به بیان دیگر اگر احتمال موفقیت در انجام کاری برابر p باشد و این کار n بار انجام شود، می‌توان محاسبه کرد احتمال این که k بار موفقیت حاصل شود چقدر است؟شکل زیر را در نظر بگیرید. فرض کنید n بار یک آزمایش برنولی را انجام دادیم. مواردی که با رنگ زرد هستند نشان دهنده‌ی موفقیت هستند و موارد بنفش شکست‌ها را نشان می‌دهند. فرض کنید در شکل زیر k بار رنگ زرد آمده است. می‌دانیم که احتمال زرد آمدن p و احتمال رنگ بنفش q است (q=1-p):در این شکل، k تا p داریم پس n-k تا q خواهیم داشت. کافی است تمام حالت‌هایی که k بار حالت زرد بیاید شمرده شود. پس برای شمارش تعداد موفقیت‌ها، انتخاب k از n را به فرمول اضافه می‌کنیم. بنابراین احتمال متغیر تصادفی با توزیع دوجمله‌ای به این صورت است: برای هر کدام از این توزیع‌ها، می‌توانید امید ریاضی و واریانس را نیز به دست آورید. برای علاقه‌ی بیشتر، دوره‌ی آموزش آمار و احتمال مهندسی دانشگاه شریف را در اینجا مشاهده کنید. نمونه‌هایی در واقعیت۱. ارزیابی مدل یادگیری ماشین فرض کنید مدلی را برای یک طبقه‌بند دو کلاسه آموزش داده‌اید و مسئله‌ی شما تشخیص یک بیماری باشد. دقت مدل ۹۰ درصد است. خطای این مدل می‌تواند به این صورت باشد: یا شخص بیمار است و مدل به اشتباه برچسب سالم می‌زند (false positive) و یا شخص سالم است و مدل برچسب بیمار تشخیص می‌دهد (false negative). اگر ۱۰۰ نفر بیمار (از قبل اطلاع دارید که بیمار هستند) را در نظر بگیرید، با تحلیل تشخیص مدل روی بیماران، می توانید نتیجه بگیرید دقت مدل برای این مسئله قابل قبول است یا خیر. متغیر تصادفی برنولی: برچسب کلاس احتمال تشخیص درست: ۰٫۹متغیر تصادفی توزیع دو جمله‌ای: چند بار بیماری درست تشخیص داده شده است؟۲. تست روش درمانی روی گروهی از بیمارانفرض کنید برای درمان یک بیماری، روش درمانی کشف شده که با احتمال ۱۰٪ می‌تواند یک بیماری را درمان کند. این دارو روی ۵۰۰ بیمار تست می‌شود. پس انتظار می‌رود که داروی مورد نظر روی ده درصد بیماران یعنی ۵۰ نفر اثر درمانی مثبت بگذارد. اما برخلاف انتظار، این دارو ۷۵ بیمار را درمان کرده است. آیا نتیجه‌ی آزمایش شانسی بوده یا واقعاً این دارو می‌تواند بیماری را درمان کند؟متغیر تصادفی برنولی: درمان یا عدم درمان بیمار احتمال درمان بیمار: ۰٫۱متغیر تصادفی توزیع دو جمله‌ای: چند بیمار درمان شده است؟۳. کنترل کیفیتیکی از مهم‌ترین مراحل در تولید محصول، کنترل کیفیت و ارزیابی اقلام تولید شده است. سالم و یا عیب‌دار بودن کالا نیز می‌تواند به صورت یک توزیع برنولی در نظر گرفته شود. فرض کنیم در یک خط تولید، انتظار می‌رود که ۸۰ درصد محصولات سالم باشند. ارزیابی کالا در ۱۰۰ مورد را می‌توان به صورت توزیع دو جمله‌ای مدل‌سازی کرد.متغیر تصادفی برنولی: سالم یا خراب بودن محصولاحتمال سالم بودن: ۰٫۸متغیر تصادفی توزیع دو جمله‌ای: چند مورد از محصولات سالم هستند؟۴. نظرسنجیپرسشنامه‌هایی که افراد باید با «بله» یا «خیر» به سوالات آن پاسخ دهند نیز می‌تواند به صورت توزیع دوجمله‌ای در نظر گرفته شود. به این ترتیب می‌توان میزان استفاده از یک محصول، برنامه تلویزیونی یا خدمات را ارزیابی کرد. برای نمونه فرض کنید ۶۰ درصد مشتریان از استفاده از خدمات یک شرکت رضایت دارند. بدین ترتیب متغیرها به صورت زیر تعریف می‌شوند:متغیر تصادفی برنولی: پاسخ بله یا خیراحتمال رضایت: ۰٫۶متغیر تصادفی توزیع دو جمله‌ای: چند نفر از محصول/خدمات/برنامه تلویزیونی راضی هستند؟

بررسی یک ابهام در مفهوم احتمال شرطی

محدثه رهنما — Tue, 27 Feb 2024 16:56:51 +0330

مبحث احتمال شرطی، موضوع پیچیده‌ای نیست. اگر هنگام محاسبه‌ی احتمال یک رویداد، اطلاعات اضافه‌ای در اختیار داشته باشیم، می‌توانیم هوشمندانه‌تر تصمیم بگیریم و پیش‌بینی دقیق‌تری از آینده داشته باشیم. درباره‌ی احتمال شرطی در پست‌های قبلی به طور مفصل توضیح داده‌ام که برای مطالعه‌ی بیشتر می‌توانید به اینجا مراجعه کنید. هدف این پست توضیح درباره‌ی ابهامی در درک احتمال شرطی است. بدین منظور مثالی عنوان می‌شود تا موضوع بهتر درک شود. قبل از هر چیز ذکر این نکته ضروری است که این مثال از این کلاس درس برداشت شده است. (ابهامی که در این پست بررسی می‌کنیم هنگام مشاهده‌ی این قسمت از درس شخصاً برای خودم پیش آمد که خوشبختانه در ادامه‌ی درس این سوال مطرح شد و ابهام من هم برطرف شد!)مثال: دو سکه داریم. یکی معمولی و دومی هر دو طرف آن شیر می‌آید. یکی از سکه‌ها را به صورت تصادفی انتخاب می‌کنیم و دو بار پرتاب می‌کنیم. این سه رویداد را در نظر بگیرید:رویداد A: پرتاب اول شیر بیاید.رویداد B: پرتاب دوم شیر بیاید.رویداد C: سکه‌ی معمولی انتخاب شده است.سوال۱: مقدار (A|C)P را محاسبه کنید.پاسخ: باید احتمال این را حساب کنیم که پرتاب اول شیر بیاید به شرطی که سکه‌ی معمولی انتخاب شده باشد. حل آن سخت نیست و مقدارش برابر ۰٫۵ است. یعنی دانش قبلی به ما می‌گوید که سکه معمولی انتخاب شده و دیگر لازم نیست درگیر محاسبه احتمال انتخاب سکه‌ها باشیم. پس به راحتی پاسخ به دست می‌آید.سوال۲: مقدار (A and C)P را حساب کنید. پاسخ: برای حل این سوال باید مفهوم عبارت A and C را درک کنیم. عبارت «پرتاب اول شیر بیاید» و «سکه‌ی معمولی انتخاب شده باشد» آیا با A|C یکی نیست؟ یعنی با اینکه می‌دانیم این دو مفهوم از هم جدا هستند، اما هنگام تفسیر آن‌ها، این طور برداشت می‌کنیم که هر دو یک مفهوم دارند! پس اشتراک (اجتماع) دو رویداد به چه معناست؟بیاید فضای نمونه‌ی پرتاب اول سکه را در نظر بگیریم: A= {شیر , خط}فضای نمونه انتخاب سکه معمولی (c1) و سکه دوم (c2) نیز به این صورت است: C = {c1 , c2}پاسخ این است که اشتراک (اجتماع) دو رویداد از حاصل ضرب دکارتی این فضای نمونه‌ی آن‌ها انتخاب می‌شود. حاصل ضرب دکارتی این دو مجموعه به صورت زیر است:A x C = { ( c1, شیر ), ( c2, شیر), ( c1, خط ), ( c2, خط ) } حال محاسبه‌ی اشتراک دو رویداد A و C ساده شد. از بین ۴ حالت ممکن، فقط یک حالت مورد نظر سوال است. یعنی: (شیر , c1). بنابراین:P(A and C) = 1÷4 = 0.25دقت کنید که حالت (خط , c2 ) عملاً ناممکن است. اما برای محاسبات باید این حالت هم در نظر گرفت.

حل یک مسئله NLP با قانون بیزین

محدثه رهنما — Mon, 26 Feb 2024 16:59:45 +0330

منبع عکسیکی از مهم‌ترین پیش‌نیازهای یادگیری ماشین، مفاهیم آمار و احتمال است که ساده‌ترین فرمول‌های آن نقش مهمی در حل مسائل هوش مصنوعی دارد. قبلاً در مورد احتمال شرطی و قانون بیز در اینجا توضیح دادم. معمولاً برای درک فرمول‌های احتمال، مثال‌های کلاسیکی همچون پرتاب سکه یا تاس مطرح می‌شود. در این قسمت، مثالی واقعی از مسائل پردازش زبان طبیعی را با قانون بیزین حل می‌کنیم. برای ساده‌تر شدن محاسبات، تعداد نمونه‌ها کم در نظر گرفته شده تا فهم مباحث برای خوانندگان راحت‌تر باشد.فرض کنید می‌خواهیم از بین نظرات کاربران یک سایت فروشگاهی، میزان رضایت خریداران را از یک محصول خاص بررسی کنیم (این مسئله در پردازش زبان طبیعی به عقیده کاوی یا opinion mining معروف است). نحوه‌ی تفکر به مسائل هوش مصنوعی به این صورت است که باید به دانش قبلی تکیه کنیم. در اینجا هم باید از قبل تعریف کنیم که منظور از نظر مثبت و منفی چیست؟ به عبارت دیگر جملات فردی که از خرید یک کالا رضایت دارد چه تفاوتی با جملات فرد ناراضی دارد؟ پس بهتر است یک فرضیه برای خود در نظر بگیریم.توجه: مسئله‌ی عقیده کاوی در دنیای واقعی پیچیدگی‌های زیادی دارد؛ مانند نظرات خنثی، جملات مبهم، رضایت نسبی، استفاده از کلمات با بار مثبت در کنار افعال منفی و... که در اینجا از آن صرف نظر می‌شود. زیرا هدف بررسی فرمول بیزین است تا مفاهیم مربوط به آن بهتر درک شود. همچنین از پیش‌پردازش‌های لازم در NLP نیز صرف نظر شده است.فرض کنید مسئله‌ی مورد نظر دو کلاسه است و مجموعه داده‌ای که در اختیار داریم شامل پنج جمله‌ی زیر است. برچسب هر جمله در پرانتز نوشته شده:کیفیت و قیمت خوب است. (مثبت)پیشنهاد میکنم. قیمتش هم خوب هست. (مثبت)اصلا نخرید. زشت و بدون کیفیت (منفی)نسبت به قیمت خوب بود و سایز مناسبی داشت. (مثبت)راضی نیستم رنگ های زشت و جنس خشک و مسخره (منفی)همانظور که مشاهده می‌شود، در جملات مثبت معمولاً از کلماتی چون «خوب» و «مناسب» استفاده شده است. در مقابل در جملات منفی کلماتی مانند «زشت» و «مسخره» به کار رفته است. فضای نمونه در این مثال به دو بخش (دو کلاس) تقسیم شده:اگر رویداد وجود کلمه «کیفیت» در جمله را در نظر بگیریم، نمودار به این شکل خواهد بود:با نگاه دقیق‌تر به نمودار می‌توان گفت که فضای نمونه به دو مجموعه مثبت و منفی افراز شده است. یادآوری: افزار کردنِ فضای نمونه به دو بخش بدین معناست که این دو مجموعه با هم اشتراک ندارند و اجتماع آن‌ها برابر با کل فضای نمونه است. از طرفی فرض کنید که کاربر دیگری چنین نظری در سایت ثبت کرده است:«رنگ و کیفیت خوب،خیلی خوشگله،ولی قیمت یکم بالاست»با در اختیار داشتن مجموعه داده‌ی آموزشی، چطور پیش‌بینی کنیم که این نظر مثبت است یا منفی؟ می‌توانیم با قاعده‌ی بیز احتمال مثبت یا منفی بودن را بر اساس وجود کلمات محاسبه کنیم. پارامتر X نشان دهنده‌ی نوع کلاس است:می‌خواهیم بر اساس دو رویداد وجود کلمه «خوب» و «کیفیت» محاسبه کنیم که این جمله در کدام کلاس قرار می‌گیرد؟ بار دیگر مجموعه داده‌ی آموزشی را با در نظر گرفتن این دو کلمه بررسی کنید:کیفیت و قیمت خوب است. (مثبت)پیشنهاد میکنم. قیمتش هم خوب هست. (مثبت)اصلا نخرید. زشت و بدون کیفیت (منفی)نسبت به قیمت خوب بود و سایز مناسبی داشت. (مثبت)راضی نیستم رنگ های زشت و جنس خشک و مسخره (منفی)حال احتمال این را حساب کنیم که جمله‌ی موردنظر مثبت باشد به شرطی که کلمه‌ی «خوب» وجود داشته باشد. می‌توانیم کلاس مثبت را با ۱ و کلاس منفی را با صفر نشان دهیم: اگر به مجموعه داده‌ی آموزشی نگاه کنید خواهید دید که در هیچ یک از نظرات منفی کلمه‌ی «خوب» به کار نرفته است. پس احتمال منفی بودن به شرط اینکه کلمه‌ی «خوب» در جمله وجود داشته باشد صفر است. در فرمول بالا، ابتدا باید سه مورد را محاسبه کنیم:۱− احتمال اینکه کلمه‌ی «خوب» به کار رفته به شرطی که می‌دانیم جمله مثبت است.۲− احتمال اینکه جمله مثبت باشد.۳− احتمال اینکه کلمه‌ی خوب در جملات به کار رود.تمامی این محاسبات با توجه به مجموعه داده‌ی در دسترس (یعنی ۵ جمله‌ی ذکر شده) انجام می‌شود. برای مطالعه درباره‌ی احتمال شرطی و قانون بیز، می‌توانید به اینجا مراجعه کنید.محاسبه‌‌ی بخش ۱ باید جملات مثبت را در نظر بگیریم، سپس تعداد جملاتی که در آن‌ها کلمه‌ی «خوب» به کار رفته را بشماریم. در این مثال، در هر سه جمله‌ی مثبت، کلمه‌ی «خوب» به کار رفته است:محاسبه‌ی بخش ۲از بین ۵ جمله‌ی مجموعه داده‌ی آموزشی، سه مورد مثبت هستند:محاسبه‌ی بخش ۳ (قانون احتمال کل)برای محاسبه‌ی احتمال اینکه استفاده از کلمه‌ی «خوب» چقدر است، لازم است تا با مفهومی به نام قانون احتمال کل آشنا شوید. اگر مجموعه جهانی U به مجموعه‌های B2, B1 , ... افراز شده باشد، آنگاه احتمال رویدادی به نام A را می‌توان به صورت زیر محاسبه کرد:در این مثال نیز، مطابق شکلی که قبلاً مشاهده شد، مثبت یا منفی بودن نظرات، کل فضای نمونه را به دو بخش افراز کرده است. پس می‌توان احتمال یک رویداد مانند وجود کلمه‌ی «خوب» را با این قانون محاسبه کرد. در صورت علاقه‌مندی بیشتر و اثبات قانون احتمال کل، می‌توانید به این درس در سایت مکتبخونه مراجعه کنید. پس احتمال کلمه‌ی «خوب» به صورت زیر محاسبه می‌شود:حال که تمامی مقادیر را حساب کردیم، می‌توانیم در فرمول بیز جایگذاری کنیم:همانطور که انتظار می‌رفت، در این مثال چون کلمه‌ی «خوب» در تمامی جملات مثبت به کار رفته، باعث شده که احتمال مثبت بودن نظر به شرط این کلمه ۱ باشد. در مقابل نیز احتمال منفی بودن به شرط کلمه‌ی «خوب» صفر است. همین روند به ازای کلمه‌ی «کیفیت» به صورت زیر است. ابتدا احتمال اینکه جمله مثبت باشد به شرطی که کلمه «کیفیت» وجود داشته باشد محاسبه می‌شود:با توجه به توضیحات بخش قبل، مقادیر را می‌توان در فرمول جایگذاری کرد:حال سعی کنید خودتان احتمال این را حساب کنید که این نظر منفی باشد به شرطی که کلمه‌ی کیفیت به کار رفته باشد. واضح است که این مقدار نیز برابر با ۰٫۵ می‌شود؛ زیرا جمع این دو احتمال باید برابر ۱ باشد.تا اینجا به ازای دو کلمه، احتمال مثبت یا منفی بودن نظر جدید را محاسبه کردیم. طبیعی است که فقط بر اساس دو کلمه‌ی ذکر شده تصمیم‌گیری صورت نمی‌گیرد و ممکن است استراتژی‌های متفاوتی برای حل مسائل عقیده کاوی به کار گرفته شود.

مفاهیم هوش مصنوعی به زبان ساده - احتمال شرطی و نظریه بیزین

محدثه رهنما — Thu, 02 Nov 2023 14:01:22 +0330

مبحث احتمال، از جمله مفاهیمی است که در عین سادگی، گاه باعث سردرگمی و کج‌فهمی علاقه‌مندان به ریاضی و آمار می‌شود. به طوری که از نظر اکثر افرادی که در حوزه‌ی کاری خود با آمار و احتمال سروکار دارند، این مفاهیم از جمله‌ی سخت‌ترین مباحث درسی محسوب می‌شود. اگر آشنایی اولیه‌ای با مفاهیم احتمال دارید اما ممکن است در فهم برخی مطالب اشتباه کنید، خواندن این مقاله برای شما مفید خواهد بود. در این مقاله فرض می‌شود که خواننده با مفاهیم اولیه مانند فضای نمونه، پیشامد و فرمول احتمال آشنایی دارد و هدف، ساده‌سازی مباحث این حوزه است.درک فرمول احتمال پیچیده نیست. مهم‌ترین نکته در محاسبه‌ی احتمال، این است که ما ابتدا مشاهده می‌کنیم؛ به بیان دیگر شروع به جمع‌‌آوری داده می‌کنیم. سپس بررسی می‌کنیم که تعداد حالت‌های مورد نظرِ ما چند بار اتفاق افتاده است. برای نمونه فرض کنید می‌خواهیم احتمال بارش در یک شهر را محاسبه کنیم. برای این کار نیاز داریم تا وضعیت آب و هوایی چند وقت اخیر (مثلا یک سال گذشته) این شهر را در اختیار داشته باشیم. آنگاه کافی است تعداد روزهای بارانی را بشماریم و تقسیم بر تعداد کل روزها کنیم. بدین ترتیب احتمال بارش برای شهر موردنظر محاسبه می‌شود. برای نمونه، مطابق شکل بالا اگر ما آب‌و‌هوای ۹ روز را بررسی کرده باشیم که ۳ روز آن بارانی بوده، احتمال بارش باران برابر با یک سوم است. همچنین می‌توان به صورت هندسی میزان احتمال را با توجه به مساحت محصور شده تصور کرد:حال مثال دیگری را در نظر بگیرید؛ فرض کنید آب و هوای ۱۶ روز را در مشاهده و ثبت کرده‌ایم. تعداد روزهای آقتابی، بارانی، ابری، نیمه ابری و طوفانی در نمودار زیر قابل مشاهده است. به این نکته توجه کنید که عمداً اعداد کوچک در نظر گرفته شده تا محاسبات ساده‌تر باشد، در واقعیت (بنا بر نوع مسئله) باید داده‌های بیشتری در اختیار داشته باشیم تا تخمین دقیق‌تری صورت گیرد.مطابق شکل بالا، در ۶ روز از ۱۶ روز، هوا بارانی بوده است. پس بر اساس داده‌های موجود احتمال بارش باران برابر با ۰٫۳۷۵=۱۶÷۶ است. از شکل بالا مشخص می‌شود که در ۳ روز از ۱۶ روز، هوا فقط بارانی بوده و در ۳ روز از کل روزها، هوا هم بارانی و هم ابری بوده‌است. حال این سوال را در نظر بگیرید: اگر بدانیم که هوا ابری است، چقدر احتمال دارد که باران ببارد؟برای محاسبه‌ی احتمال بارش در روزهای ابری، کافی است کل روزهای ابری را در نظر بگیریم(۵ روز). سپس تعداد روزهایی که ابری و بارانی بوده را تقسیم بر کل روزهای ابری کنیم: ۰٫۶=۵÷۳ در این سوال، احتمال شرطی را محاسبه کردیم که با نمادهای ریاضی به این صورت نوشته می‌شود: p (Rainy and Cloudy | Cloudy ) = ۰٫۶حال کمی این عبارت کسری را تغییر می‌دهیم و صورت و مخرج را تقسیم بر کل داده‌ها می‌کنیم:بنابراین برای این دو رویداد، فرمول محاسبه‌ی احتمال شرطی را می‌توان بدین صورت نوشت. لازم به ذکر است که می‌‌توان برای سادگی بیشتر، عبارت (Rainy and Cloudy) به صورت خلاصه‌ نوشته می‌شود: درک فرمول احتمال شرطی، مبنای تئوری Bayesian است. در ادامه فرض کنید بارش باران را رویداد A و هوای ابری را شواهد E نامیده‌ایم. فرمول احتمال شرطی را در دو حالت زیر در نظر بگیرید:همانطور که ملاحظه می‌کنید، احتمال P(A and E) در هر دو عبارت سمت چپ مشترک است. بنابراین به عبارت سمت راست می‌رسیم. حال فرمول زیر که همان تئوری bayesian است به دست می‌آید:هرهر کدام از بخش‌های فرمول بیزین نام گذاری شده و تعریف مشخصی دارند:منظور از posterior احتمال رویداد A به شرط رخداد E است.معنای likelihood این است که احتمال دیدن شواهد E به شرطی که رویداد A رخداده باشد چقدر است. این مورد از روی مشاهدات ثبت شده قابل اندازه‌گیری است.منظور از Prior و Evidence نیز به ترتیب احتمال رخداد رویداد A و E است. این دو این از روی داده‌ها محاسبه می‌شود.بنابراین در مثال آب و هوا، در صورتی که بخواهیم احتمال بارش باران را بر اساس ابری بودن هوا پیش‌بینی کنیم، باید احتمال رخداد بارش باران، احتمال رخداد هوای ابری و احتمال ابری بودن هوا به شرط بارش باران را محاسبه کنیم. دقت کنید که در این نمونه‌ی خاص، می‌توانیم قرارداد کنیم که ما مثلاً قصد پیش‌بینی آب‌وهوای کلیِ یک روز را بر اساس وضعیت هوا در زمان طلوع آفتابِ همان روز داریم. در واقع این مثال، حالت ساده شده‌ای از مسئله‌ی پیش‌بینی آب‌وهواست و تنها برای فهم بهتر مسئله و نحوه‌ی محاسبه از روی داده‌ها و مشاهدات بیان شده‌است. منابع:https://www.youtube.com/watch?v=9wCnvr7Xw4Ehttps://www.youtube.com/watch?v=HZGCoVF3YvMhttps://www.youtube.com/watch?v=U_85TaXbeIo&t=85s