درک ریاضی SVM - حاشیه

منتشرشده در SVM Tutorial
لینک مقاله اصلی: SVM - Understanding the math - Part 1 - The margin

مقدمه

این اولین مقاله از یک سری مقالات است که من در مورد ریاضی پشت SVM خواهم نوشت. چیزهای زیادی برای صحبت کردن وجود دارد و بسیاری از پیش‌زمینه‌های ریاضی اغلب ضروری هستند. با این حال، من سعی خواهم کرد با سرعت کم حرکت کنم و توضیحات عمیقی بدهم، به طوری که همه چیز حتی برای مبتدیان شفاف باشد.

هدف ماشین بردار پشتیبان (SVM) چیست؟

هدف ماشین بردار پشتیبان یافتن ابرصفحه جداکننده بهینه است که حاشیه داده‌های آموزشی را به حداکثر برساند.

اولین چیزی که می‌توانیم از این تعریف ببینیم این است که یک SVM به داده‌های آموزشی نیاز دارد. که به این معنی است که یک الگوریتم یادگیری تحت نظارت است.

همچنین مهم است که بدانیم SVM یک الگوریتم طبقه‌بندی است. که به این معنی است که ما از آن برای پیش‌بینی این که آیا چیزی به طبقه خاصی تعلق دارد یا نه استفاده خواهیم کرد.

برای مثال، ما می‌توانیم داده‌های آموزشی زیر را داشته باشیم:

ما قد و وزن چندین نفر را ترسیم کرده‌ایم و همچنین راهی برای تشخیص بین زنان و مردان وجود دارد.

با چنین داده‌هایی، استفاده از یک SVM به ما اجازه خواهد داد تا به سوال زیر پاسخ دهیم:

با توجه به یک نقطه داده خاص (وزن و قد) ، فرد مرد است یا زن؟

برای مثال اگر کسی ۱۷۵ سانتی متر قد و ۸۰ کیلوگرم وزن داشته باشد، مرد است یا زن؟

ابرصفحه جداکننده چیست؟

تنها با نگاه کردن به طرح، می‌توانیم ببینیم که جدا کردن داده‌ها ممکن است. برای مثال، ما می‌توانیم یک خط را دنبال کنیم و سپس تمام نقاط داده نمایش‌دهنده مردان بالای خط بوده و تمام نقاط داده نمایش‌دهنده زنان زیر خط خواهند بود.

چنین خطی ابرصفحه جدا کننده (separating hyperplane) نامیده می‌شود و در زیر به تصویر کشیده شده‌است:

اگر فقط یک خط است، چرا ما آن را ابرصفحه می‌نامیم؟

اگر چه ما از یک مثال بسیار ساده با نقاط داده‌ای که در دو بعد قرار گرفته‌اند استفاده کردیم، اما ماشین بردار پشتیبان می‌تواند با هر تعداد از ابعاد کار کند!

ابر صفحه تعمیمی از یک صفحه است.

  • در یک بعد ابرصفحه نقطه نامیده می‌شود.
  • در دو بعد یک خط است
  • در سه بعد یک صفحه است
  • در ابعاد بیشتر می‌توانید آن را ابر صفحه بنامید
نقطه L یک ابرصفحه جدا کننده در یک بعد است.
نقطه L یک ابرصفحه جدا کننده در یک بعد است.


ابرصفحه جداکننده بهینه چیست؟

این واقعیت که شما می‌توانید یک ابر صفحه جدا کننده را پیدا کنید به این معنی نیست که این ابر صفحه بهترین ابر صفحه ممکن است! در مثال زیر چند ابر صفحه جدا کننده وجود دارد. هر یک از آن‌ها معتبر است زیرا مجموعه داده‌های ما را طوری جدا می‌کند که مردان در یک سمت و زنان در سمت دیگر قرار بگیرند.

ممکن است تعداد زیادی ابر صفحه‌های جدا کننده وجود داشته باشد
ممکن است تعداد زیادی ابر صفحه‌های جدا کننده وجود داشته باشد

فرض کنید که ما ابر صفحه سبز را انتخاب می‌کنیم و از آن برای طبقه‌بندی داده‌های واقعی استفاده می‌کنیم.

این ابرصفحه به خوبی تعمیم داده نمی‌شود
این ابرصفحه به خوبی تعمیم داده نمی‌شود

این بار در طبقه‌بندی اشتباهی رخ می‌دهد چرا که سه زن به اشتباه طبقه‌بندی می‌شوند. به طور شهودی، می‌توانیم ببینیم که اگر یک ابرصفحه را انتخاب کنیم که به نقاط داده یک کلاس نزدیک است، آنگاه ممکن است به خوبی تعمیم داده نشود.

بنابراین ما سعی خواهیم کرد یک ابر صفحه را تا جایی که ممکن است دور از نقاط داده هر دسته انتخاب کنیم:

این یکی بهتر به نظر می‌رسد. وقتی ما از آن برای داده‌های زندگی واقعی استفاده می‌کنیم، می‌توانیم ببینیم که یک طبقه‌بندی کامل ایجاد می‌کند.

ابر صفحه سیاه با دقت بیشتری نسبت به ابر صفحه سبز طبقه‌بندی را انجام می‌دهد
ابر صفحه سیاه با دقت بیشتری نسبت به ابر صفحه سبز طبقه‌بندی را انجام می‌دهد

به همین دلیل هدف یک SVM یافتن ابرصفحه جداکننده بهینه است:

  • زیرا داده‌های آموزشی را به درستی طبقه‌بندی می‌کند
  • و چون آن چیزی است که برای داده‌های پنهان بهتر تعمیم داده می‌شود

حاشیه چیست و چگونه به انتخاب ابر صفحه بهینه کمک می‌کند؟

حاشیه ابرصفحه بهینه ما
حاشیه ابرصفحه بهینه ما

برای یک ابرصفحه خاص، می‌توانیم فاصله بین ابرصفحه و نزدیک‌ترین نقطه داده را محاسبه کنیم. زمانی که این مقدار را داشته باشیم، اگر آن را دوبرابر کنیم چیزی که حاشیه (margin) نامیده می‌شود را ب دست خواهیم آورد.

در واقع حاشیه یک سرزمین خالی از سکنه است. هیچ نقطه داده‌ای در داخل حاشیه وجود نخواهد داشت. (توجه داشته باشید: این می‌تواند مشکلاتی را در زمان نویزی بودم داده‌ها ایجاد کند و به همین دلیل است که طبقه‌بندی کننده حاشیه نرم بعدا معرفی خواهد شد).

برای یک ابر صفحه دیگر، حاشیه به این شکل خواهد بود:

همانطور که می‌بینید، حاشیه B کوچک‌تر از حاشیه A است

می‌توانیم مشاهدات زیر را انجام دهیم:

  • اگر یک ابر صفحه بسیار نزدیک به یک نقطه داده باشد، حاشیه آن کوچک خواهد بود.
  • هر چه فاصله یک ابر صفحه از یک نقطه داده بیشتر باشد، حاشیه آن بزرگ‌تر خواهد بود.

این بدان معنی است که ابر صفحه بهینه، صفحه‌ای با بیش‌ترین حاشیه خواهد بود.

به همین دلیل هدف SVM یافتن ابرصفحه جدا کننده بهینه‌ای است که حاشیه داده‌های آموزشی را به حداکثر برساند.

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.