من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
درک ریاضی SVM - حاشیه
منتشرشده در SVM Tutorial
لینک مقاله اصلی: SVM - Understanding the math - Part 1 - The margin
مقدمه
این اولین مقاله از یک سری مقالات است که من در مورد ریاضی پشت SVM خواهم نوشت. چیزهای زیادی برای صحبت کردن وجود دارد و بسیاری از پیشزمینههای ریاضی اغلب ضروری هستند. با این حال، من سعی خواهم کرد با سرعت کم حرکت کنم و توضیحات عمیقی بدهم، به طوری که همه چیز حتی برای مبتدیان شفاف باشد.
هدف ماشین بردار پشتیبان (SVM) چیست؟
هدف ماشین بردار پشتیبان یافتن ابرصفحه جداکننده بهینه است که حاشیه دادههای آموزشی را به حداکثر برساند.
اولین چیزی که میتوانیم از این تعریف ببینیم این است که یک SVM به دادههای آموزشی نیاز دارد. که به این معنی است که یک الگوریتم یادگیری تحت نظارت است.
همچنین مهم است که بدانیم SVM یک الگوریتم طبقهبندی است. که به این معنی است که ما از آن برای پیشبینی این که آیا چیزی به طبقه خاصی تعلق دارد یا نه استفاده خواهیم کرد.
برای مثال، ما میتوانیم دادههای آموزشی زیر را داشته باشیم:
ما قد و وزن چندین نفر را ترسیم کردهایم و همچنین راهی برای تشخیص بین زنان و مردان وجود دارد.
با چنین دادههایی، استفاده از یک SVM به ما اجازه خواهد داد تا به سوال زیر پاسخ دهیم:
با توجه به یک نقطه داده خاص (وزن و قد) ، فرد مرد است یا زن؟
برای مثال اگر کسی ۱۷۵ سانتی متر قد و ۸۰ کیلوگرم وزن داشته باشد، مرد است یا زن؟
ابرصفحه جداکننده چیست؟
تنها با نگاه کردن به طرح، میتوانیم ببینیم که جدا کردن دادهها ممکن است. برای مثال، ما میتوانیم یک خط را دنبال کنیم و سپس تمام نقاط داده نمایشدهنده مردان بالای خط بوده و تمام نقاط داده نمایشدهنده زنان زیر خط خواهند بود.
چنین خطی ابرصفحه جدا کننده (separating hyperplane) نامیده میشود و در زیر به تصویر کشیده شدهاست:
اگر فقط یک خط است، چرا ما آن را ابرصفحه مینامیم؟
اگر چه ما از یک مثال بسیار ساده با نقاط دادهای که در دو بعد قرار گرفتهاند استفاده کردیم، اما ماشین بردار پشتیبان میتواند با هر تعداد از ابعاد کار کند!
ابر صفحه تعمیمی از یک صفحه است.
- در یک بعد ابرصفحه نقطه نامیده میشود.
- در دو بعد یک خط است
- در سه بعد یک صفحه است
- در ابعاد بیشتر میتوانید آن را ابر صفحه بنامید
ابرصفحه جداکننده بهینه چیست؟
این واقعیت که شما میتوانید یک ابر صفحه جدا کننده را پیدا کنید به این معنی نیست که این ابر صفحه بهترین ابر صفحه ممکن است! در مثال زیر چند ابر صفحه جدا کننده وجود دارد. هر یک از آنها معتبر است زیرا مجموعه دادههای ما را طوری جدا میکند که مردان در یک سمت و زنان در سمت دیگر قرار بگیرند.
فرض کنید که ما ابر صفحه سبز را انتخاب میکنیم و از آن برای طبقهبندی دادههای واقعی استفاده میکنیم.
این بار در طبقهبندی اشتباهی رخ میدهد چرا که سه زن به اشتباه طبقهبندی میشوند. به طور شهودی، میتوانیم ببینیم که اگر یک ابرصفحه را انتخاب کنیم که به نقاط داده یک کلاس نزدیک است، آنگاه ممکن است به خوبی تعمیم داده نشود.
بنابراین ما سعی خواهیم کرد یک ابر صفحه را تا جایی که ممکن است دور از نقاط داده هر دسته انتخاب کنیم:
این یکی بهتر به نظر میرسد. وقتی ما از آن برای دادههای زندگی واقعی استفاده میکنیم، میتوانیم ببینیم که یک طبقهبندی کامل ایجاد میکند.
به همین دلیل هدف یک SVM یافتن ابرصفحه جداکننده بهینه است:
- زیرا دادههای آموزشی را به درستی طبقهبندی میکند
- و چون آن چیزی است که برای دادههای پنهان بهتر تعمیم داده میشود
حاشیه چیست و چگونه به انتخاب ابر صفحه بهینه کمک میکند؟
برای یک ابرصفحه خاص، میتوانیم فاصله بین ابرصفحه و نزدیکترین نقطه داده را محاسبه کنیم. زمانی که این مقدار را داشته باشیم، اگر آن را دوبرابر کنیم چیزی که حاشیه (margin) نامیده میشود را ب دست خواهیم آورد.
در واقع حاشیه یک سرزمین خالی از سکنه است. هیچ نقطه دادهای در داخل حاشیه وجود نخواهد داشت. (توجه داشته باشید: این میتواند مشکلاتی را در زمان نویزی بودم دادهها ایجاد کند و به همین دلیل است که طبقهبندی کننده حاشیه نرم بعدا معرفی خواهد شد).
برای یک ابر صفحه دیگر، حاشیه به این شکل خواهد بود:
همانطور که میبینید، حاشیه B کوچکتر از حاشیه A است
میتوانیم مشاهدات زیر را انجام دهیم:
- اگر یک ابر صفحه بسیار نزدیک به یک نقطه داده باشد، حاشیه آن کوچک خواهد بود.
- هر چه فاصله یک ابر صفحه از یک نقطه داده بیشتر باشد، حاشیه آن بزرگتر خواهد بود.
این بدان معنی است که ابر صفحه بهینه، صفحهای با بیشترین حاشیه خواهد بود.
به همین دلیل هدف SVM یافتن ابرصفحه جدا کننده بهینهای است که حاشیه دادههای آموزشی را به حداکثر برساند.
این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
شمول مالی دیجیتال در عصر کووید۱۹
مطلبی دیگر از این انتشارات
آخرین شبکه نورونها، بزرگترین معادلات دنیا را در سریعترین زمان ممکن حل کردند.
مطلبی دیگر از این انتشارات
اثر ویروس کرونای جدید بر سیستمهای تولید مثل