نوشته های sobhan chabi

نوشته های sobhan chabi https://virgool.io/feed/@sobhanchabi fa 2026-07-06 04:52:59 https://files.virgool.io/upload/users/4870163/avatar/UWhOhS.jpg?height=120&width=120 sobhan chabi https://virgool.io/@sobhanchabi وقتی هوش مصنوعی «مطمئن» اشتباه می‌کند https://virgool.io/@sobhanchabi/%D9%88%D9%82%D8%AA%DB%8C-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D9%85%D8%B7%D9%85%D8%A6%D9%86-%D8%A7%D8%B4%D8%AA%D8%A8%D8%A7%D9%87-%D9%85%DB%8C-%DA%A9%D9%86%D8%AF-vfjevpnelfk6 درباره عدم قطعیت در یادگیری ماشین چرا Accuracyبالا کافی نیست ، زمانی که مدل اشتباه میکند ولی سطح اطمینانش به جواب قابل تحسین است .۱. درست بودن با مطمئن بودن فرق داردفرض کنید یک مدل تشخیص سرطان پوست روی صدها هزار تصویر آموزش دیده و در آزمون‌های استاندارد به دقت ۹۴٪ رسیده است. روی کاغذ، این یک موفقیت چشمگیر به نظر می‌رسد.اما پزشکان متوجه نکته‌ای عجیب می‌شوند: مدل روی برخی تصاویر با کیفیت پایین، تصاویر تار، نور نامناسب یا زاویه‌های غیرمعمول، همچنان با اطمینان بسیار بالا پیش‌بینی می‌کند. برای تصویری که حتی یک متخصص باتجربه نیز با احتیاط درباره آن نظر می‌دهد، مدل ممکن است بگوید: «خوش‌خیم، با احتمال ۹۷٪.»نکته جالب اینجاست که مسئله صرفاً اشتباه بودن یا نبودن پیش‌بینی نیست. حتی اگر مدل در نهایت پاسخ درستی داده باشد، این سؤال همچنان مطرح است که آیا میزان اطمینانی که ابراز کرده واقعاً با کیفیت شواهد موجود همخوانی دارد یا نه.همین فاصله میان «درست بودن» و «برآورد میزان اطمینان نسبت به درستی» در سال‌های اخیر به یکی از موضوعات مهم پژوهش در یادگیری ماشین تبدیل شده است.اگر به تصمیم‌گیری انسان‌ها نگاه کنیم، معمولاً متخصصان باتجربه فقط نتیجه را اعلام نمی‌کنند؛ بلکه سطح اطمینان خود را نیز در نظر می‌گیرند. یک پزشک زمانی که شواهد کافی در اختیار ندارد، آزمایش‌های تکمیلی درخواست می‌کند. یک مهندس سازه در شرایط نامطمئن از ضرایب ایمنی استفاده می‌کند. به بیان دیگر، بخشی از تخصص به این مربوط می‌شود که بدانیم چه زمانی اطلاعات کافی نداریم.بسیاری از مدل‌های یادگیری ماشین، دست‌کم در شکل استاندارد خود، چنین قابلیتی را به‌صورت طبیعی در اختیار ندارند.۲. مشکل اصلی: مدل‌ها معمولاً مجبورند پاسخ بدهندیکی از محدودیت‌های بنیادین بسیاری از مدل‌های یادگیری ماشین این است که تقریباً همیشه باید پاسخی تولید کنند. در یک مدل طبقه‌بندی استاندارد، هدف آموزش این است که برای هر ورودی، برچسب صحیح پیش‌بینی شود. خروجی مدل معمولاً از طریق تابع Softmax به مجموعه‌ای از احتمال‌ها تبدیل می‌شود. اما این احتمال‌ها لزوماً بیانگر میزان اطمینان واقعی مدل نیستند.برای مثال، اگر مدلی که فقط حیوانات رایج را دیده، با تصویری بسیار غیرعادی یا خارج از توزیع آموزشی خود مواجه شود، باز هم معمولاً مجبور است یکی از کلاس‌های موجود را انتخاب کند. در چنین شرایطی ممکن است عددی مانند «۷۸٪ احتمال سگ» تولید شود، حتی اگر ورودی اساساً مشابه هیچ‌یک از نمونه‌های آموزشی نباشد.به همین دلیل، در بسیاری از کاربردها دیگر نمی‌توان احتمال خروجی مدل را به‌سادگی معادل میزان اعتمادپذیری آن در نظر گرفت.این مسئله در حوزه‌هایی مانند پزشکی، خودروهای خودران، سامانه‌های مالی و سیستم‌های تصمیم‌یار اهمیت ویژه‌ای پیدا می‌کند؛ زیرا در چنین کاربردهایی، ناتوانی مدل در تشخیص «نمی‌دانم» می‌تواند هزینه‌بر یا حتی خطرناک باشد.۳. عدم قطعیت چیست؟برای درک بهتر موضوع، سه مثال ساده را در نظر بگیرید.وقتی یک تاس سالم می‌اندازید، نتیجه ذاتاً تصادفی است. حتی اگر همه چیز را درباره شرایط پرتاب بدانیم، همچنان نتیجه هر بار قابل پیش‌بینی دقیق نخواهد بود. این نوع عدم قطعیت به خود پدیده مربوط است.در پیش‌بینی آب‌وهوا نیز بخشی از عدم قطعیت از پیچیدگی و رفتار آشوبناک جو ناشی می‌شود. البته بخشی دیگر می‌تواند به محدودیت داده‌ها یا مدل‌های پیش‌بینی مربوط باشد.حالا پزشکی را تصور کنید که با بیماری نادری مواجه شده که هرگز پیش از این ندیده است. در اینجا بخشی از عدم قطعیت ناشی از کمبود دانش و تجربه است و با اطلاعات بیشتر می‌تواند کاهش یابد.این تمایز، ما را به دو نوع اصلی عدم قطعیت در یادگیری ماشین می‌رساند؛ مفهومی که در سال‌های اخیر نقش مهمی در طراحی سامانه‌های قابل اعتماد پیدا کرده است.۴. دو نوع اصلی عدم قطعیتعدم قطعیت ذاتی (Aleatoric Uncertainty)این نوع عدم قطعیت به نویز، ابهام یا تصادفی بودن خود داده‌ها مربوط است و حتی با جمع‌آوری داده‌های بیشتر نیز به طور کامل از بین نمی‌رود. برای مثال، در بسیاری از مسائل مالی، بخشی از نوسانات کوتاه‌مدت بازار ناشی از عواملی است که ذاتاً پیش‌بینی‌ناپذیرند. یا در پزشکی، ممکن است یک نمونه واقعاً در مرز میان دو دسته تشخیصی قرار داشته باشد و حتی متخصصان درباره آن به توافق کامل نرسند.از دیدگاه مدل‌سازی، هدف معمولاً حذف این نوع عدم قطعیت نیست؛ بلکه تلاش می‌شود آن را به شکلی مناسب نمایش دهیم. به همین دلیل، در برخی مسائل به جای پیش‌بینی یک مقدار واحد، توزیع یا بازه‌ای از نتایج ممکن ارائه می‌شود.عدم قطعیت معرفتی (Epistemic Uncertainty)این نوع عدم قطعیت از محدودیت دانش مدل ناشی می‌شود و معمولاً با داده‌های بیشتر، داده‌های متنوع‌تر یا مدل‌های بهتر کاهش می‌یابد.فرض کنید یک سیستم خودروی خودران عمدتاً در شرایط آب‌وهوایی آفتابی آموزش دیده باشد. اگر برای نخستین بار با برف سنگین مواجه شود، ممکن است در تشخیص مسیر یا موانع دچار مشکل شود. این مشکل ناشی از کمبود تجربه مدل در چنین شرایطی است.یا فرض کنید یک مدل پزشکی فقط روی بیماران ۲۰ تا ۶۰ ساله آموزش دیده باشد. اگر با بیماری بسیار مسن مواجه شود، طبیعی است که انتظار داشته باشیم نسبت به پیش‌بینی خود محتاط‌تر باشد.در پژوهش‌های یادگیری ماشین، روش‌هایی مانند Active Learning، شبکه‌های عصبی بیزی و Monte Carlo Dropout عمدتاً برای برآورد یا کاهش این نوع عدم قطعیت مورد استفاده قرار می‌گیرند.به طور کلی، هر زمان مدل با شرایطی مواجه شود که به‌خوبی در داده‌های آموزشی نمایندگی نشده‌اند، معمولاً بخشی از عدم قطعیت مشاهده‌شده از نوع معرفتی است.۵. چرا Accuracy کافی نیست؟فرض کنید دو مدل تشخیص تقلب مالی داریم که هر دو روی یک مجموعه آزمون، دقت یکسانی کسب کرده‌اند.مدل اول هنگام اعلام «۹۵٪ اطمینان» در عمل فقط در حدود ۶۵٪ مواقع درست است. همچنین روی داده‌های غیرمعمول نیز با اطمینان بالا پیش‌بینی می‌کند.مدل دوم هنگام اعلام «۹۵٪ اطمینان» تقریباً در همان حدود درست عمل می‌کند و هرگاه با نمونه‌های ناشناخته یا غیرعادی مواجه شود، سطح اطمینان خود را کاهش می‌دهد و درخواست بررسی انسانی می‌کند.اگر فقط Accuracy را ببینیم، این دو مدل تقریباً یکسان به نظر می‌رسند. اما از منظر قابلیت اعتماد، تفاوت میان آن‌ها بسیار عمیق است.در بسیاری از کاربردهای واقعی، دانستن اینکه چه زمانی نباید به مدل اعتماد کرد، تقریباً به اندازه خود دقت مدل اهمیت دارد. به همین دلیل، در سال‌های اخیر معیارهای مرتبط با عدم قطعیت و کالیبراسیون توجه قابل توجهی در جامعه پژوهشی دریافت کرده‌اند.۶. کالیبراسیون (Calibration)فرض کنید مدلی بارها پیش‌بینی‌هایی با اطمینان ۸۰٪ ارائه می‌کند.اگر در بلندمدت تقریباً ۸۰٪ این پیش‌بینی‌ها درست باشند، می‌گوییم مدل کالیبره است.نمونه‌ای آشنا از این مفهوم را می‌توان در پیش‌بینی آب‌وهوا مشاهده کرد. اگر در تمام روزهایی که هواشناس «۷۰٪ احتمال باران» اعلام کرده، تقریباً در ۷۰٪ موارد باران ببارد، می‌توان گفت این پیش‌بینی‌ها به‌خوبی کالیبره شده‌اند.در مقابل، یک مدل بیش‌ازحد مطمئن (Overconfident) ممکن است مرتباً احتمال‌های بالا اعلام کند، در حالی که نرخ موفقیت واقعی آن به‌مراتب کمتر باشد.یکی از معیارهای رایج برای سنجش این موضوع، Expected Calibration Error یا ECE است. هرچه مقدار این معیار کمتر باشد، همخوانی میان اطمینان اعلام‌شده و عملکرد واقعی مدل بیشتر خواهد بود.روش‌هایی مانند Temperature Scaling، Platt Scaling و Isotonic Regression نیز برای بهبود کالیبراسیون مدل‌ها توسعه یافته‌اند و همچنان در بسیاری از سامانه‌های عملی مورد استفاده قرار می‌گیرند.۷. وقتی عدم قطعیت نادیده گرفته می‌شوددر بسیاری از سامانه‌های واقعی، مسئله فقط پیش‌بینی اشتباه نیست؛ بلکه ناتوانی در تشخیص شرایط نامطمئن است. مدل ممکن است با داده‌هایی مواجه شود که تفاوت قابل توجهی با داده‌های آموزشی دارند. اگر سامانه نتواند این وضعیت را تشخیص دهد، ممکن است تصمیم‌هایی با اطمینان ظاهری بالا اما کیفیت واقعی پایین اتخاذ شود.نمونه‌های متعددی در پژوهش‌های پزشکی نشان داده‌اند که مدل‌هایی با عملکرد مطلوب در یک بیمارستان، پس از انتقال به بیمارستانی دیگر و مواجهه با جمعیت بیمار متفاوت یا پروتکل‌های متفاوت، عملکرد ضعیف‌تری پیدا می‌کنند.این پدیده که معمولاً با عنوان Distribution Shift شناخته می‌شود، یکی از چالش‌های مهم استقرار مدل‌های یادگیری ماشین در محیط‌های واقعی به شمار می‌رود.۸. عدم قطعیت در مدل‌های زبانی بزرگبا ظهر مدل‌های زبانی بزرگ، موضوع عدم قطعیت اهمیت بیشتری پیدا کرده است.این مدل‌ها معمولاً پاسخ‌ها را به صورت متن تولید می‌کنند و برخلاف بسیاری از مدل‌های طبقه‌بندی، سطح اطمینان آماری خود را مستقیماً نمایش نمی‌دهند.نکته مهم اینجاست که عباراتی مانند «فکر می‌کنم»، «احتمالاً» یا «مطمئن نیستم» لزوماً بازتاب دقیقی از عدم قطعیت درونی مدل نیستند. این عبارات بخشی از الگوهای زبانی آموخته‌شده‌اند و به تنهایی نمی‌توانند مبنای مناسبی برای ارزیابی اعتمادپذیری پاسخ باشند.برای تخمین عدم قطعیت در مدل‌های زبانی، پژوهشگران از روش‌های مختلفی استفاده می‌کنند:Ensemble MethodsMonte Carlo DropoutBayesian Deep LearningConformal Predictionهمچنین برخی مطالعات نشان داده‌اند که مقایسه پاسخ‌های متعدد مدل به یک سؤال می‌تواند اطلاعاتی درباره میزان پایداری پاسخ فراهم کند. البته پایداری پاسخ الزاماً به معنای درست بودن آن نیست؛ یک مدل می‌تواند بارها با اطمینان کامل همان پاسخ اشتباه را تکرار کند.۹. جمع‌بندیدر بسیاری از کاربردهای واقعی، موفقیت یک مدل فقط به دقت آن وابسته نیست.مدلی که بتواند شرایط نامطمئن را تشخیص دهد، محدودیت‌های خود را بشناسد و در مواقع لازم درخواست بررسی انسانی کند، معمولاً از مدلی که همیشه با اطمینان بالا پاسخ می‌دهد قابل اعتمادتر است.شاید یکی از مهم‌ترین درس‌هایی که در سال‌های اخیر از استقرار مدل‌های یادگیری ماشین در دنیای واقعی آموخته‌ایم همین باشد: یک سیستم هوشمند فقط نباید پاسخ‌های خوب تولید کند؛ بلکه باید بداند در چه شرایطی نباید به پاسخ خود بیش از حد اعتماد کند.به همین دلیل، ارزیابی عدم قطعیت و کالیبراسیون امروز دیگر صرفاً یک موضوع پژوهشی حاشیه‌ای نیست، بلکه به بخشی جدایی‌ناپذیر از توسعه و استقرار سامانه‌های یادگیری ماشین، به‌ویژه در حوزه‌های حساس و پرریسک، تبدیل شده است sobhan chabi sobhan chabi Tue, 02 Jun 2026 17:31:10 +0330 داخل ذهن مدل چی میگذره ؟ میسازیم اما درک نمیکنیم https://virgool.io/@sobhanchabi/%D8%B3%D9%81%D8%B1-%D8%A8%D9%87-%D8%B0%D9%87%D9%86-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-of6s9biympfk فکر میکنم اکثر کسایی که این مطلب رو میخونن استفاده مکرر از مدل های هوش مصنوعی مثل gemeni و chat gpt دارن . این مدل های ساعت ها train شده اند و میلیون ها دلار براشون هزینه شده . این مدل ها شعر مینویسن ، کد میزنن ، استدلال میکنن ، محاسبات سخت و طولانی انجام میدن ؛ اما دقیقا چطور کار میکنن ؟ این یه سوال فلسفی یا یه بحران وجودی نیست ولی واقعا چطور ما مدل هایی خلق کردیم و استفاده میکنیم که نمیدونیم چی توی سر این مدل میگذره .اما حوضه mechanistic interpretability به ما کمک میکنه تا ما رو به یه جواب برسونه .اما اول سوالم رو واضح تر بیان کنموقتی میگم "نمیفهمیم" منظورم اینه که LLM ها اساسا مثل یه جعبه سیاه هستن . ورودی میدی ، خروجی میگیری اما چطور به اون جواب رسیده ؟ کدوم بخش از مدل مسئول پاسخ دادن این سوال بود ؟ و چه اطلاعاتی درونش ذخیره شده و چطور دان ترکیب میشن ؟اینا سوال هایی هستن براش جواب قانع کننده ای نداریم .حالا شاید براتون سوال شده باشه که :« مگه Explainable AI نداریم که فرایند تفکرش رو توضیح بده ؟»بله . اما mechanistic interpretability چیز دیگه ایه .تفاوت این دوتا مهمه :یه راه برای فهمدین مدل ها اینه که از بیرون بهشون نگاه کنی ، و بپرسی : « کدوم بخش از ورودی بیشترین تاثیر رو داشت ؟» به این رویکرد Explainable AI میگیم . مفیده اما مثل اینه که بانک بگه وامت رد شده ؛ درسته که یه دلیل بهت میدن مثل اینکه بهت بگن درآمدت کمه ، اما توضیح نمیده که بانک چطور به این نتیجه رسیده .mechanistic interpretability یه لایه عمیق تر میشه . بهت نمیگه چه چیزی تاثیر گذاشت بلکه بهت میگه دقیقا کجای مدل این اتفاق افتاد و چطور .مثل اینکه ماشین دود کنه و تو کاپوت رو بزنی بالا تا ببینی دقیقا کجای ماشین دارهه میسوزه .چرا اصلا مهمه ؟درک میکنم اگه این سوال برات پیش بیاد که : «مدل داره کار میکنه ، چرا من باید بدونم چطور ؟» یا به قولآدولف مایر بزرگ : « جایی که نمیخارد را نخارانید .»اما چند تا دلیل است که این سوال رو جدی میکنه :اول امنیت : مدل هایی که نمیفهمیم چطور تصمیم میگیرند ، ممکنه رفتار های ناخواسته ای داشته باشند که ما نمیتونیم پیش بینی کنیم . اگه ندونیم چرا یه مدل یه حرف مضر میزنه ، نمی تونیم مطمئن بشیم که fine -tuning یا RLHF واقعا رفتار رو عوض کرده یا فقط یادگرفته که اون رفتار هارو مخفی کنه .دوم فریب : یه مدل که داره فریب میده ، رو چطور تشخیص میدیم ؟ اگه فقط از خروجی نگاه کنیم ، ممکنه جواب های درست بده تا وقتی که مهم باشه و اونجا رفتار متفاوتی نشون میده .سوم هم ترازی : میخواهیم مدل هایی بسازیم که واقعا ارزش های ما رو دنبال کنن ، نه فقط الگوی ارزش ها رو یاد گرفته باشند . برای این کار باید بفهمیم داخل ندل چه اتفاقی داره می افته .خلاصه : هر چقدر مدل ها قدرتمند تر بشند ، ندانستن سازو کارشون خطرناک تر میشه .داخل مدل چه خبره ؟Neurons - اتم های سازنده شبکهوقتی یه transformer رو train میکنیم ، در واقع داری میلیارد ها پارامتر رو تنظیم میکنیم .این پارامتر ها توی لایه های مختلف سازماندهی میشن . توی هر لایه nueronها هستند ؛ واحد های محاسباتی که ورودی میگیرند و یه عدد (activation) تولید میکنن .در تئوری هر نورون باید یه مفهوم رو نمایندگی کنه . مثلا یه نورون ممکنه مسئول تشخیص حضور یه اسم خاص باشه و یه نورون دیگه مسئول لحن جمله باشه .ولی واقعیت پیچیده تره . و اینجا یکی از جالب ترین کشف های این حوزه شروع میشه .Superposition - وقتی یه نورون چند نقش بازی میکنهکشف مهم اینه که مدل ها چیزی رو انجام میدند که بهش superposition میگن . یعنی یه نورون میتونه همزمان چندین مفهوم مختلف رو نمایندگی کنه البته نه همزمان ، بلکه در context های مختلف .چرا مدل این کار رو میکنه ؟ چون فضای محاسباتی محدوده ، ولی اطلاعاتی که باید یاد بگیره نامحدود . پس یاد میگیره چندین مفهوم رو توی یه نورون فشرده کنه به شرطی که این مفاهیم معمولا باهم ظاهر نشن .این خیلی شبیه compression توی برنامه نویسی هست . فضای کمی اگه داری پس overlap کن .features - چیزی که مدل واقعا نمایندگی میکنهپس اگه نورون ها به تنهایی معنایی ندارند چه چیزی معنا رو خلق میکنه ؟ جواب این سوال فیچر ها هستن. یه فیچر یه جهت در فضای activation هاست . مثلا شاید مفهوم سلطنت نه در یه نورون خاص بلکه به عنوان یه ترکیب خطی از چند نورون وجود داشته باشه . مشهورترین مثالش : اگه embedding کلمات رو اشته باشیم :(شاه - مرد ) + خانم = ملکهاین نشون میده که جنسیت و سلطنت به عنوان مسیر مستقل در فضای embedding وجود دارند . این همون فیچر هست .محققان نشون دادند که مدل های زبانی representation های معنا داری میسازند نه فقط یه الگو سازی ساده .چرا این حوضه هنوز خیلی سخته ؟اگه همچین مبحثی انقدر جالبه چرا هنوز علی رغم خوبی هاش هنوز باهاش مشکل داریم .مقیاس : یه مدل بزرگ میلیارد های و حتی صد های میلیارد پارامتر داره . حتی اگه بتونیم یه بخش کوچیکی از این این مدل رو متوجه بشیم و درک کنیم اما درک کامل این مدل ها در حال حاضر کار غیر ممکنی به نظر میاد . مثل اینکه تمام ترانزیستور های یه CPU رو بشناسی اما ندونی چطور باهم ویندوز رواجرا میکنن .نا پایداری فیچر ها : بعضی از فیچر ها توی train های بین tun های مختلق تغییر میکنن . حتی در برخورد با یه مشکل مشابه مدل ها با وزن های متفاوت رویکرد های متفاوتی نسبت به اون مسله نشون میدن مثل اینکه دو شخص یه معادله ریاضی داشته باشن ولی به روش های متفاوت حلش کنن .سوال ترسناکشرکت های بزرگ هوش مصنوعی دارن هر سال مدل های جدید و جدید تری به بازار عرضه میکنن و هر بار درک این مدل ها سخت تر از قبل میشه . سوال من اینه که ما چقدر از ساختن مدلی که از درک کاملش عاجز باشیم فاصله داریم .برای اینکه سوالم رو واضح تر کنم بزارید با داستان alpha zero توضیح بدم . در سال 2017 شزکت deep mind یه مدل هوش مصنوعی به دنیا عرضه کرد ؛ مدلی که میتونست شطرنج بازی کنه . البته که شطرنج بازی کردن یه مدل هوش مصنوعی و کامپیوتر ها چیز جدیدی نیست ؛ شرکت IBM در سال 1997 موفق شده بود کامپیوتر Deep blue رو بسازه که Garry kasparov رو شکست بده . اما تفاوت مهم بین این دو مثال اینه که در شرکت IBM داشنمندان و ریاضی دانان با وجود اینکه شطرنج بلد نبودن الگوریتم هایی ساخته بودن و میلیارد ها استراتژِی به مدل یاد داده بودن که بتونه گرند مستر شطرنج رو شکست بده اما alpha zero فقط با دونستن قوانین اولیه شطرنج تبدیل به قوی ترین بازیکن شطرنج شد . الفا زیرو با دونستن قوانین میلیارد ها بار با خودش شطرنج بازی کرد استراتژی خلق کرد ؛ استراتژی هایی رو ساهت که حتی اساتید شطرنج هم بهش فکر نکرده بودن . درواقع شرکت Deep mind تونسته بود مدلی از هوش مصنوعی خلق کنه که هنگام بازی کردن حرکاتی رو انجام بده که در اون لحظه یه اشتباه به حساب میاد اما چند دقیقه بعد تبدیل به یه برتری میشه . حالا انسان ها سیستم هایی میسازن که الگو ها رو کشف کنن و راه حل کشف کنن که به طور کامل قادر به توضیح دادنشون نیستن .اگه امروز هوش مصنوعی در محیطی محدود مانند شطرنج میتونه به راه‌حل‌ها و استراتژی‌هایی برسه که انسان تنها پس از مشاهده نتایجش قادر به درک ارزش آن‌هاست، این پرسش جدی مطرح می‌شه که در آینده، در حوزه‌های پیچیده‌تری مانند علم، اقتصاد یا سیاست، تا چه حد ممکنه با سیستم‌هایی روبه‌رو بشیم که تصمیم‌هاشون فراتر از توان تحلیل و درک مستقیم ما باشه . sobhan chabi sobhan chabi Fri, 29 May 2026 13:21:14 +0330 چرا مدل هوش مصنوعی روی لپتاپ عالیه ولی در واقعیت شکست میخوره ؟ https://virgool.io/@sobhanchabi/%DA%86%D8%B1%D8%A7-%D9%85%D8%AF%D9%84-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D8%B1%D9%88%DB%8C-%D9%84%D9%BE%D8%AA%D8%A7%D9%BE-%D8%B9%D8%A7%D9%84%DB%8C%D9%87-%D9%88%D9%84%DB%8C-%D8%AF%D8%B1-%D9%88%D8%A7%D9%82%D8%B9%DB%8C%D8%AA-%D8%B4%DA%A9%D8%B3%D8%AA-%D9%85%DB%8C%D8%AE%D9%88%D8%B1%D9%87-skh3nzgdbt24 منبع عکس : سایت دنیای اقتصاد: لینک مربوطهتا قبل از آشنا شدن با مفهوم data leakage فکر میکردم هر چی دقت مدل بالاتر باشه ؛ همه چی داره عالی کار میکنه و کارم رو درست انجام دادم .اما بعداً متوجه شدم که مدل ما میتونه تقلب کنه و به نحوی به اطلاعاتی که نباید دسترسی داشته باشه ، دسترسی پیدا کرده و داره به کل من و مسیر پروژه رو گمراه میکنه . به این اتفاق Data Leakage (نشت داده) گفته میشه .این داستان مشابه ممکنه که برای شما هم اتفاق افتاده باشه که وقتی مدل موقع test دقت 98 درصدی داشته و شما پیش خودتون میگفتین دیگه از این بهتر نمیشه یا شاید حتی خودتون رو رقیب حقیقی سم التمن خطاب کردین اما موقع deploy مدل به هیچ دردی نمیخوره و عملا بی فایده است .دلیل این مشکل چیزی نیست جز نشت داده ، که یعنی مدل به کمک روش های مختلف تونسته به اطلاعاتی که بعد از وقوع رویداد مورد نظر در دسترس بود ، دسترسی پیدا کنه و یه جورایی از آینده تقلب کنه .اما Data leakage دقیقا چیه ؟به زبان ساده Data Leakage یعنی نشت اطلاعات خارج از داده های آموزشی مدل به داخل مدل ، اطلاعاتی که که در دنیای واقعی در دسترس نخواهد بود .برای اینکه بهتر این موضوع رو درک کنین یه مثال ساده میزنم : شما یک دانش اموز کنکوری هستین که در آزمون های جامع مراکز مختلف برای امادگی کنکور شرکت میکنین ؛ یکی از روز هایی که شما در محل برگزاری آزمون جامع هستید کنجکاوی شما باعث میشه که یکی از کشو های حوزه امتحان رو باز کنید و کلید پاسخ نامه آزمون اون روز رو پیدا کنید. در اون آزمون شما با حفظ کردن پاسخ ها درصد های عالی بدست میارید ، و این پروسه هر هفته تکرار میشه . همه معلم ها منتظر روز کنکور هستن تا با افتخار اعلام کنن که اونها به یه نخبه آموزش دادن و بنر موفقیت شما در کنکور رو سرتاسر شهر بزنن . اما... روز کنکور میرسه و شما موفق شدین توی کنکور جزو سه نفر اخر باشین . این مثالی که زدم مثال عملی نشت داده هایی بود که مدل در حال اموزش دیدن نباید بهشون دسترسی می داشت . مدل موفق به رسیدن به درصد دقت های عالی میشه اما نه به خاطر یادگیری واقعی ؛ به خاطر تقلب .انواع نشت دادهدر کل سه نوع نشت داده اصلی وجود داره که در این بخش به اختصار بهشون میپردازیم1. نشت هدف (target leak) :یه ویژگی در مدل داریم که مستقیما از برچسب هدف نشأت میگیره یا بعد از اون ثبت میشه2 .آلودگی داده های آموزش و آزمون (train-test-contamination ):اطلاعاتی از مجموعه آزمون قبل از آموزش وارد فرایند پیش پردازش یا مهندسی ویژگی میشه .3 . نشت زمانی (time leakage ):در داده های سری زمانی ، از اطلاعات آینده برای پیش بینی گذشته استفاده میشه .نوع اول - نشت هدفرایج ترین مثال برای این نوع نشت اینه که میخوایم پیش بینی کنیم آیا یه نفر شامل بیمه درمانی میشه یا نه .و در اطلاعات مشخص میکنیم که آیا شخص دارو مصرف کرده یا نه ؛ اما این نوع اطلاعات باید پس از پیش بینی مدل در دسترس مدل قرار بگیره نه هنگام اموزش .مثال :در اینجا use_meds و diagnosed اطلاعاتی هستن که موقع پیش بینی موجود نیست پس نباید به عنوان ویژگی به مدل آموزش داد .نوع دوم - آلودگی داده های آموزش و آزمون - اشتباه رایج در پیش پردازشاین نوع نشت معمولا نا خواسته اتفاق میافته و مشکل اینجاست که پیش پردازش رو قبل از تقسیم داده ها انجام میدیم :بهترین راه حل برای رفع این مشکل اینه که همیشه از sklearn.pipline.Pipeline استفاده بکنیم . این کلاس تضمین میکنه که هر مرحله پردازش فقط روی داده های آموزشی تنظیم میشه نه آزمون .نشت نوع سوم - تله داده های سری زمانیوقتی با داده های سری زمانی کار میکنیم ، ترتیب زمان مهم و حیاتیه . استفاده از train_test_split معمولی ( که تصادفی تقسیم میکنه ) میتونه اطاعات آینده رو به گذشته نشت بده .مثال :که برای حل این مشکل هم از کلاس TimeSeriesSplit استفاده کردیم که جلوی مشکلات ناشی از نشت تصادفی رو بگیریم .جمع بندییکی از رایج ترین و خطر ناک ترین اشتباهات در دنیای machine learning نشت داده است ، چون کسی متوجه مشکل نیست تا وقتی که کار از کار گذشته باشه و نتایج و هدف پروژه رو کاملا گمراه میکنه .در خوش بینانه ترین حالت فقط باعث شده که منابع و وقت هدر بره ؛ اما سناریو وقتی جدی میشه که یک سیستم مالی یا پزشکی بر اساس مدل های بی اعتبار تصمیم بگیره . راه حل این مشکل هم ساده است : قبل از هر چیز از خودت بپرس « آیا این ویژگی موقع پیش بینی موجوده ؟» و همیشه زنجیره پردازش بساز تا مدلت در محیط واقعی عم به خوبی روی کاغذ عمل کنه .دفعه بعد که مدلت روی داده‌های آزمون نتیجه درخشانی داد، یه لحظه مکث کن. از خودت بپرس: «آیا این مدل واقعاً یاد گرفته، یا فقط تقلب کرده؟» اون یه ثانیه تردید، ارزشش از ساعت‌ها بهینه‌سازی بیشتره.سخن پایانی : اگه این مقاله برات مفید بود، یه سوال ازت دارم: آیا تا حالا خودت با نشت داده دست‌وپنجه نرم کردی؟ تجربه‌ات رو توی کامنت‌ها بنویس — احتمالاً بقیه هم همون اشتباه رو کردن و از خوندنش چیزی یاد می‌گیرن. sobhan chabi sobhan chabi Tue, 19 May 2026 16:41:26 +0330