من پیام سلیمیان هستم،مربی توسعه کسب و کار و مهارتهای مدیران، نویسنده بیش از چهار کتاب، به صاحبان کسب وکارهای کوچک کمک می کنم درآمدشان را افزایش دهند و بدون حضور خودشان کارها به بهترین نحو انجام شود.
روش های ماشین لرنینگ برای بهینه سازی قیمت گذاری
روشهای یادگیری ماشین برای انجام بهینهسازی قیمتگذاری.
چکیده
با افزایش سطح رقابت, بهینهسازی قیمتگذاری یک نقش محوری در اکثر بازارهای بیمه بالغ بدست میآورد, بیمه گران را مجبور به بهینهسازی رتبه خود و در نظر گرفتن رفتار مشتری میکند. در این مقاله به بررسی قابلیت کاربرد تکنیکهای یادگیری ماشین جدید از جمله مدلهای رشد درختی پرداخته شدهاست. ما به دقت مزایا و معایب ناشی از استفاده از آنها را تحلیل میکنیم.
کلمات کلیدی: بهینهسازی قیمتگذاری، تبدیل ماشینی، یادگیری ماشینی، رفتار مشتری، درختان تقویت شده.
مقدمه
نگهداری و تبدیل بیمهگذار باعث افزایش توجه در دو دهه اخیر شدهاست. به طور خاص, انتشار گسترده وب سایت وب مقایسه قراردادهای بیمه گران مختلف را تسهیل کردهاست. بنابراین, امروزه برای یک شرکت بیمه مهم است که نه تنها هزینه پوشش ارائهشده بلکه تقاضای بیمه. در واقع, احتمال پذیرش یک مشتری احتمالی برای پذیرش یک مظنه و احتمال حفظ مشتری فعلی, محرکهای کلیدی حفظ و افزایش سودآوری یک بیمهگر است. این احتمالات نه تنها به متغیرهای اقتصاد کلاسیک استفادهشده برای تعیین هزینههای زیان مورد انتظار, بلکه بر متغیرهای بازار رقابتی (فاصله بین مظنه و بهترین قیمت بازار), رفتار مشتری و جمعیت شناختی بستگی دارد. مدلهای مبتنی اماری, مدلسازی نگهداشت بیمه جاری, و مدلسازی احتمالات تبدیل بیمهگذار آتی منجر به بهینهسازی قیمتگذاری (po) میشوند. به طور خاص, هدف این مقاله بررسی چگونگی بهبود روشهای یادگیری ماشین در بهبود نگهداری و تخمین ضریب تبدیل در طول دوره کلاسیک است.
تعداد کمی از مقالات دانشگاهی از مدلهای پیشبینیکننده متفاوت با رگرسیون لجستیک استفاده کردهاند. از سوی دیگر, شرکت ارتباطات راه دور دارای یک موضوع خاص از تجزیه و تحلیل کسبوکار برای حداقل یک دهه است. با توجه به اهمیت موضوع بیمه عمر - بیمه با استفاده از جنگلهای تصادفی, و (فو و وانگ) از تکنیکهای تحلیل بقا برای تعیین زمان حذف در پرتفوی p & c استفاده شد. علاوه بر آن, از جنگلهای تصادفی استفاده شد تا احتمالات لغزش را مدل کنند, در حالی که از شبکههای عصبی برای مدل ماندن مدل در نظر گرفتن تغییرات ویژه استفاده میشد. در نهایت, یک بررسی از مدلهای رگرسیون کلاسیک که برای رفتار بیمهگذار به کار گرفته میشود, میتواند در آن مشاهده گردد. (Dutang 2012.
از دیدگاه یادگیری ماشین, تخمین نگهداری و تبدیل, یک مساله طبقهبندی نظارت شده است که به طور سنتی در روش آماری با یک مدل لجستیک حل میشود. مزیت کلیدی ارایهشده توسط رگرسیون لجستیک, تفسیر آسان پارامترهای برازش شده با یک سرعت محاسباتی منطقی است. با وجود این, تکنیکهای یادگیری ماشین مانند رگرسیون و درختهای طبقهبندی, جنگلهای تصادفی, ماشینآلات افزایش شیب, و فراگیران عمیق (کوهن و جانسن) اخیراً در بسیاری از کاربردهای تجاری شهرت فزایندهای یافتهاند.
علاقه متخصصان آماری در مدلهای یادگیری ماشین در سالهای اخیر رشد داشتهاست, به عنوان مثال (frees, Derrig, و مایرز 2014; frees, مایرز, و Derrig 2016). (Pozzolo 2011) همچنین از یادگیری ماشین مختلفی استفاده کرد.
علاقه متخصصان آماری در مدلهای یادگیری ماشین در سالهای اخیر رشد کردهاست, به عنوان مثال (آزاد, Derrig, و مایرز 2014; آزاد, مایرز, و Derrig 2016). (Pozzolo 2011) همچنین از الگوریتمهای یادگیری ماشین مختلفی برای پیشبینی فرکانس در رقابت Kaggle Allstate استفاده کردهاست.
به علاوه, (Guelman 2012) مزایای استفاده از تقویت شیب به جای پواسون کلاسیک برای پیشبینی فرکانس ادعا را نشان داد. در حالی که به نظر میرسد که تکنیکهای یادگیری ماشین بهتر از کاربرد رگرسیون لجستیک کلاسیک در بسیاری از کاربردها, دو مساله مانع اتخاذ گسترده آنها در علوم آماری میشوند. اول اینکه, تفسیر پارامترها اغلب دشوار است (موضوع " جعبه سیاه ").
دوم، زمان محاسباتی مورد نیاز میتواند در مقایسه با زمان مورد نیاز برای برازش یک GLM، سخت باشد. برای نویسندگان "دانش، مرور سیستماتیک تکنیکهای یادگیری ماشین با مقایسه عملکرد پیشگویانه در رگرسیون منطقی، قابلیت تفسیر، و زمان محاسباتی برای مدلسازی" حفظ و تبدیل " هنوز در ادبیات آماری وجود ندارد و از این رو در اینجا ارایه خواهد شد.
بقیه این مقاله به شرح زیر سازماندهی شدهاست: بخش ۳ مروری خلاصه بر ملاحظات تجاری دارد.
در بخش ۴، مدلهای پیشگویانه و روششناسی برای مشکلات طبقهبندی دوتایی را مورد بررسی قرار میدهیم. در بخش ۵، ارایه مجموعه دادهها با برآورد و مقایسه مدلهایی که قبلاً ارائه شدهاند، همراه با یک مثال از بهینهسازی قیمت پیروی میشود. در نهایت، بخش ۶ این مقاله را نتیجهگیری میکند.
به منظور دستیابی به این وظایف، یک مجموعه داده واقعی از یک بیمهگر مستقیم در مطالعه ما به منظور تبدیل مدل استفاده خواهد شد. به طور دقیقتر، پایگاهداده مورد استفاده در دو ماه اخیر از نقلقولهای مربوط به بدهی شخصی است. مجموعه دادهها برای مدل برازش مدل، ارزیابی عملکرد و گامهای بهینهسازی قیمتگذاری ذکر شده در بالا مورد استفاده قرار خواهند گرفت. ما تاکید میکنیم که روششناسی استفادهشده در اینجا برای مدلسازی تبدیلات میتواند به مدلسازی حفظ بدون هیچ مشکلی تبدیل شود. برای اجازه دادن به تجزیه و تحلیل آسان ، نرمافزار منبع باز مورد استفاده قرار گرفتهاست، مانند محیط R (تیم هستهای ۲۰۱۷)، و نرمافزار H۲O داده کاوی (تیم H۲O.ai ۲۰۱۷).
3-مرور مفهوم کسب و کار
انجمن بخش تصادفات (CAS) PO را به عنوان "مکمل مدلهای هزینه از دست دادن آماری سنتی" تعریف میکند تا از مدلهای کمی تقاضای مشتری برای استفاده در تعیین قیمت مشتری استفاده کند. نتیجه نهایی مجموعهای از تنظیمات پیشنهادی برای مدلهای هزینه برای کلاسهای ریسک آماری است "، مراجعه کنید (Ratemaking ۲۰۱۴).
رویکرد PO شامل ملاحظات مربوط به رفتار مشتری و محیط بازار است و باعث میشود که این رویکرد کمی از نرخ هزینه مبتنی بر هزینه سنتی خارج شود. اگرچه این روش مبتکرانه است, اما نگرانیها توسط حامیان مصرف کنندگان افزایش مییابد, و بررسی اولیه دیگری از تنظیم کننده ها وجود دارد. به عنوان مثال (کمیسیون امنیت انجمن ملی 2015; Baribeau 2015) سوال این است که گنجاندن صریح انعطافپذیری قیمت در فرآیند تنظیم قیمتها, قیمت بیمه را ناعادلانه میکند. PO به طور گستردهای توسط متخصصان آماری در اشکال مختلف تحت درمان قرار گرفتهاست; برای مثال (دانکن و McPhail 2013; Serhat و McPhail 2013; Serhat 2013), و تا حد کمتری از سوی دانشگاهیان در علوم بیمه.
علاوه بر این، PO باید از طریق کانال توزیع به عنوان مشتری انجام شود، چرا که مشتریان در یک مسیر در وب و یا در مقابل یک عامل بسته رفتار نمیکنند، به طور مثال (Rulliere، Loisel، و Mouminoux ۲۰۱۷).
PO میتواند به افزایش سودآوری کسبوکار فعلی و آتی با در نظر گرفتن هم زیان و و هم محیط کسبوکار که بیمهگر در آن عمل میکند، کمک کند. در حقیقت، تقریباً در هر کشوریطراحان خط مشی میتواند نقلقولهای ارائهشده توسط شرکتهای بیمه رقیب را مقایسه کند، که آن را برای بیمهگر برای به حداکثر رساندن سود مرتبط با خط مشی های فعلی و بالقوه مهم میسازد.
در نتیجه، PO باید نه تنها هزینه بالقوه مربوط به پوشش بیمه را مدلسازی کند، بلکه احتمال جلوگیری از پذیرش معاملات از طرف مشتری را نیز در نظر بگیرید.
به طور خاص، یک تحلیل تبدیل باید عواملی چون ویژگیهای فردی (شامل آمار جمعیتی، خصوصیات ریسک بیمه)؛ حق بیمه پیشنهادی (به خصوص تغییر پولی آنها)؛ امتیاز نسبی حق بیمه با توجه به چیزی که در حال حاضر در بازار عرضه میشود را در نظر بگیرد. یک آنالیز مشابه را میتوان به منظور برآورد احتمال حفظ مشتریان فعلی، تحلیل نگهداری، با در نظر گرفتن ویژگیهای فردی مشابه، تاریخچه حق بیمه و مطالبات، انجام داد.
در عمل، عملکرد PO باید چهار فاکتور داشته باشد: یک مدل ریسک ریسک، به منظور دستیابی به هزینه مورد انتظار، یک مدل قابلیت ارتجاعی قیمت مشتری برای پیشبینی حجم تجارت جدید و پیشبینی حجم سود با توجه به تغییر در قیمتها و پیشبینی بهترین تغییرات قیمت برای یک هدف مالی خاص. (Santoni و گومز Alvado ۲۰۰۷) و (Manin و Bayley ۲۰۱۰) یک نمای کلی از PO از یک دیدگاه بیمه ارائه میدهند.
مروری بر ارائههای متخصصین چند نکته مهم را جلب کرد. کسبوکار موتور شخصی یکی از بازارهایی است که در آن, چنین شرکتهایی با استفاده از اندازه پورتفولیوی سیاست و حجم زیادی از اطلاعات جمعآوری شدهاند. برای مثال مدل حفظ و تبدیل در بازارهای آمریکا با استفاده از روشهای غیر خطی. یک مثال دیگر از po بر مبنای معیارهای ارزش مشتری برای تجارت مستقیم را میتوان پیدا کرد. ( Bou Nader and Pierron 2014 ) .
چهار رویکرد متفاوت برای انجام بهینهسازی قیمتگذاری ارائه شدهاست: ۱. بهینهسازی سیاست فردی: آخرین قیمت پیشنهادی به بیمهگذار در سطح فردی مجدداً محاسبه میشود.
2.بهینهسازی سیاست فردی به صورت جداگانه بیان میشود: , قیمتها متناسب به عنوان متغیرهای هدف در یک پیشبینی استاندارد مدل میشوند. بنابراین یک ساختار سنتی به دست میآید.
3.دفترچه راهنمای بهینه سازی: این روش بسیار مشابه روش بالا است.
4.بهینهسازی زمان واقعی: این روش بر اهمیت " دوبارهسازی مداوم " مدلهای رفتار مصرفکننده و زیان با دادههای بهنگام شده واقعی تاکید میکند.
اگرچه بهینهسازی سیاست فردی بهترین عملکرد را از طریق حداکثرسازی سود فراهم میکند, لازم به ذکر است که مقررات یا محدودیتهای عملیاتی میتوانند منجر به انتخاب رویکردهای اصلاح کمتر شوند.
در این مقاله با استفاده از مدلسازی پیشگویانه, مدلسازی تبدیل به عنوان جایگزینی برای استاندارد سازی استاندارد انجام شدهاست. برای نشان دادن, یک مدل تبدیل مقدار متغیر " تبدیل " را هدف قرار میدهد که میتواند دو مقدار داشته باشد: تبدیل (بله), رد (نه). رگرسیون لجستیک در خانواده مدل خطی تعمیمیافته به طور سنتی برای رسیدگی به چنین تحلیلهایی به کار گرفته شدهاست(e.g. Emblem , Pretium , Earnix , . . . )
4-مدلسازی پیشگویانه برای طبقهبندی دوتایی
مراحل مدلسازی
در این بخش مرور کوتاهی از مدلهای پیشبینی براساس کتاب (Kuhn و جانسون 2013), (Breiman 2001) و (Bett 2014) ارائه شدهاست. مدلسازی پیشگویانه شامل استفاده از تکنیکهای ریاضی مختلف برای مجموعه داده متشکل از یک متغیر پاسخ و یک مجموعه از پیشبینیها است. هدف از این فرآیند یافتن بهترین مدل از نظر عملکرد پیشگویانه است, که در آن عملکرد باید متفاوت از روشهای پیشنهادی توسط آمار کلاسیک ارزیابی شود. به طور خاص, در حالی که در آمار کلاسیک یک مدل برای توضیح بهتر یک پدیده تعریف میشود, در مدلسازی پیشگویانه یک تاکید قوی بر روی این که چگونه یک پیشبینی میتواند بر روی دادههای نامریی انجام شود تنظیم شدهاست. علاوه بر این, اهمیت ارزیابی عملکرد پیشگویانه در زیر یک زیر نمونه از دادههای مورد استفاده برای تنظیم مدل همیشه مورد تاکید است.
با توجه به فرآیند ساخت مدل, (کوهن و جانسون 2013) مراحل زیر را در بر میگیرند: ۱. پیشپردازش داده: این وظیفه شامل تمیز کردن دادهها, احتمالاً تبدیل پیش بینی کننده ها (ویژگیهای مهندسی) و انتخاب آنهایی است که در مرحله مدلسازی مورد استفاده قرار میگیرند (انتخاب ویژگی).
۲. تقسیم دادهها: مجموعه دادهها به آموزش، اعتبار سنجی، و یک مجموعه تست تقسیم میشود، در نتیجه کاهش "پوشش بیش از حد" که زمانی رخ میدهد که یک مدل به شدت بر روی دادههای مشابهی که برای پیدا کردن ساختار زیربنایی به کار میرود، رخ میدهد، در حالی که عملکرد کمتر روی دادههای نامریی را نشان میدهد.
۳. قراردادن مدلهای انتخابی در مجموعه آموزشی: اغلب خانوادهی مدلها به یک یا چند پارامتر تنظیم نیاز دارند تا به طور منحصر به فرد یک مدل را تعریف کنند؛ این پارامترها نمیتوانند به صورت تحلیلی استخراج شوند و کلاس آنها به عنوان "پارامترهای مافوق" نیز شناخته میشود. جستجوایی شبکهای (یا یک متغیر بهینه) را میتوان برای پیدا کردن ترکیب بهینهای از پارامترها با توجه به یک معیار عملکرد خاص استفاده کرد. برای طبقهبندی دوتایی، معیارهای عملکرد شامل مساحت زیر منحنی (AUC)، شاخص جینی، اتلاف لگاریتمی و آمار Kappa میشود.
۴. انتخاب مدل: یک ارزیابی از این مدل در میان آنهایی که تست شدهاند در یک مجموعه تست بهتر عمل میکند و نتایج قابل تعمیم به دادههای بلااستفاده است.
۴. تجزیه و تحلیل داده قبل از پردازش
تکنیکهای پیشپردازش داده به طور کلی به افزودن، حذف و تبدیل دادهها اشاره دارند. این بخش از فرآیند برای تعیین موفقیت یا شکست کل تحلیل بسیار مهم است چون بسیاری از تکنیکهای یادگیری ماشین به فرمت و مقیاس پیشبینی حساس هستند.
اول اینکه، چندین تکنیک مدلسازی نیاز به پیشبینیها برای داشتن مقیاس مشترک دارند. مقیاس گذاری مرکزی شایعترین تبدیل مورد استفاده برای رسیدن به این هدف است که به بهبود پایداری محاسبات عددی با هزینه کاهش توان تفسیر کمک میکند. در برخی موارد هم چنین میتواند برای از بین بردن عدم تناظر مفید باشد، با بهره بردن از از روشهایی مانند بخش Box وcox به دست آمد(Box و cox ۱۹۶۴).
دوم، تجزیه و تحلیل مناسب از موارد پرت در بسیاری از نمونهها مورد نیاز است. موارد پرت مشاهداتی هستند که از بقیه دادهها بسیار دور به نظر میرسند و میتوانند بر عملکرد نهایی مدل با معرفی یک انحراف جهانی تاثیر بگذارند. معمولاً، بازرسی دیداری از توزیع متغیر اولین گام برای مقابله با این مساله است، و زمانی که نقاط مشکوک شناسایی شدند، مقادیر آنها باید با دقت مورد سوال قرار گیرند تا اطمینان حاصل شود که آنها در واقع عضو فرآیند تولید دادهها هستند. به استثنای برخی مدلهای پیشگویانه که به طور طبیعی نسبت به موارد پرت بیتوجه هستند (به عنوان مثال، مدلهای مبتنی بر درخت، و ماشینهای بردار پشتیبان)، در همه موارد دیگر، موارد پرت باید حذف شوند. در این خصوص، تکنیکهای خاص مانند تحول علامت فضایی (Serneels، دی nolf، و ون Espen ۲۰۰۶) میتوانند کمک کنند.
سوم، مقادیر از دست رفته، یا مشاهدات بدون هیچ ارزشی برای برخی یا همه متغیرها، باید با آنها مناسب رفتار شود.
مانند موارد پرت، کاوش دقیق به دلایل ساختاری بالقوه برای چنین پدیدههایی ممکن است مورد نیاز باشد. حدس این است که دادههای گمشده میتواند ناشی از یک فرآیند متفاوت ایجاد دادهها باشد، و حذف ساده این نقاط داده ممکن است تاثیری منفی بر عملکرد کلی داشته باشد. با این وجود، هر زمان که نسبت مقادیر از دست رفته بیش از حد بالا است، روشهایی مانندimputation (انتساب) (به عنوان مثال نزدیکترین مدل همسایه k - یا رگرسیون با متغیرهای کمکی) را میتوان مورد استفاده قرار داد.
افزایش تعداد متغیرها همیشه مفید نیست. بنابراین، انتخاب اولیه پیشبینیها ممکن است مفید باشد. برای مثال، پیش بینی کننده های بسیار همبسته ممکن است حذف شوند تا به تفسیر بدون از دست دادن عملکرد پیشگویانه کمک کنند. بسیاری از مدلهای پیشگویانه در حال حاضر حاوی معیارهای درونی اهمیت پیشبینی متغیر هستند، بنابراین یک انتخاب ویژگی ضمنی انجام میدهند. مدلهای بدون انتخاب ویژگی ممکن است به طور منفی تحتتاثیر پیشبینیهای ناآگاهانه قرار بگیرند. برای اجتناب از این امر، روشهای خاص برای انجام غربالگری اولیه پیشبینیکننده ساخته شدهاند: "روشهای پوششی" و "روشهای فیلتر" برای تعیین این که چه زمانی وارد مدل میشوند بهترین نتیجه را ایجاد میکنند "روشهای فیلتر" ارزیابی متغیری از قدرت رابطه بین هر پیشبینیکننده و هدف را اجرا میکنند.
متغیرهای بیشتر, منحط یا " نزدیک - واریانس " (پیشبینیکنندههای با مقادیر متمایز کمی مشخص میشوند که فراوانیهای آنها به شدت نامتناسب است) ممکن است در برخی از مدلها مسایل محاسباتی ایجاد کنند. تجزیه مولفههای اصلی (pca) و تحلیل مولفههای مستقل (ica) میتوانند برای کاهش تعداد متغیرهای ورودی مورد استفاده قرار گیرند. به عنوان نمونه یک مجموعه کوچکتر از متغیرهای تولید شده به دنبال کسب اکثریت اطلاعات هستند که منجر به مدلهای صرفهجو میشود. چنین روشهایی هم چنین از همخطی چندگانه با هزینه متغیرهای کمتر قابل تفسیر جلوگیری میکنند.
در نهایت برخی پیشبینیها نیازمند بازنویسی مجدد است تا به راحتی جابجا شوند. برای مثال, کدگذاری متغیرهای اسمی یا مطلق به متغیرهای مجازی چندگانه همیشه یک گام ضروری قبل از برازش هر مدل است.
تظریف از متغیرهای پیوسته یک روش پرکاربرد برای غلبه بر غیر خطی بودن بین نتیجه و هر متغیر مداوم است. با این حال, (کوهن و جانسون) سه عیب این روش را شناسایی کردهاند: از دست دادن عملکرد (از آنجا که بسیاری از مدلهای پیشبینیکننده قادر به یافتن روابط غیرخطی پیچیده بین پیشبینهای و تظریف هستند, ممکن است این ویژگی را کاهش دهند); کاهش دقت; افزایش نرخ مثبت کاذب.
۴.۳ آموزش مدل، تنظیم و ارزیابی عملکرد
آموزش مدل شامل برازش یک مدل از طریق به روزرسانی مکرر متغیرها و / یا پارامترها. از این طریق طراح باید به پوشش بیش از حد که میتواند زمانی ظاهر شود و یک مدل بیش از حد پیچیده است، توجه کند.
این به خاطر یک استراتژی مدلسازی است که بیش از حد بر الگوهای خاص مجموعه دادههای خاص تاکید میکند که مدل بر روی آن نصب شدهاست. مدلهای پوشش داده شده عملکرد پیشبینیکننده ضعیفی دارند. بنابراین، به دست آوردن یک روش قابلاعتماد برای برآورد عملکرد پیشگویانه مدلها لازم است.
از این رو، تقسیم مجموعه دادهها بین یک بخش آموزشی، که در آن مدلها مناسب و تنظیم میشوند، و یک قسمت آزمایشی، که برای تخمین عملکرد مدلها استفاده میشود، اساسی است. همانطور که بیشتر در(Kuhn و جانسون ۲۰۱۳) توضیح داده شد، استفاده از تکنیکهای نمونهگیری مجدد میتواند به دست آوردن یک تخمین کمتر جانبدارانه از عملکرد مدل کمک کند. برای مثال، یک روش معمولاً مورد استفاده قرار میگیرد، اعتبار سنجی متقابل k برابر است، به عنوان مثال مجموعه داده آموزشی در طول فرآیند برآورد به دو نمونه فرعی با اندازه مساوی تقسیم میشود. هنگامی که مدلهای k تخمین زده میشوند، از مشاهدات برابر به عنوان یک اعتبار سنجی استفاده میشود که در آن ارقام معیارهای عملکرد محاسبه میشوند. در نتیجه، تناسب مدل کلی با میانگین k [k] برآورد میشود.
علاوه بر این، زمانی که مدلهای برآورد در یک خانواده مدل دادهشده، باید ذکر شود که اکثر تکنیکهای یادگیری ماشین فعلی، مدلهایی را با مشخص کردن یک یا چند پارامتر مشخص شناسایی میکنند. همانطور که در بخش قبل معرفی شد، مقادیر بهینه پارامترهای بیش از حد را نمیتوان به طور مستقیم از دادهها برآورد کرد، در نتیجه نیاز به جستجوی شبکهای برای تنظیم مدل نهایی وجود دارد. مقایسه معیارهای عملکرد بهدستآمده در چندین مدل با مجموعههای مختلف از پارامترهای بیش از حد نمیتواند (به طور کلی) روی محصول دکارتی تمام ترکیبات ممکن انجام شود. وقتی زمان محاسبه یا بعد بعدی افزایش مییابد، یک جستجوی تصادفی جالبتر میشود. اخیراً، بهینهسازی Bayesian به عنوان یک جایگزین (Kuhn ۲۰۱۶) محبوبیت کسب کردهاست. به طور خاص، روش Bayesian شامل یک چرخه اول از جستجوی تصادفی برای کاوش فضای بیش از حد پارامترها با یک چرخه بعدی بهینهسازی عددی براساس یک فرآیند گاوسی است. مزیت این رویکرد این است که هر گام نه بر یک گام تصادفی، نه بر یک فهرست مجزا از بیش از حد پارامترها، بلکه براساس یک مدل احتمالاتی است.
از آنجا که کار ما بیشتر تلاش خود را به تحلیل واکنش دوتایی اختصاص میدهد، یک نکته خاص در مورد چگونگی ارزیابی عملکرد پیشبینیکننده مدلهای رقیب در چنین محیطهایی ارایه شدهاست. به عنوان یک گام اولیه، یک آستانه برای احتمالات دادهشده به عنوان پیشبینی پیشبینیکننده توسط یک مدل به منظور تعیین اینکه آیا یک مشاهده به عنوان یک "رویداد" یا "غیر رویدادی" مورد نیاز است، تعریف میکند. آستانه پیشفرض ۱ / ۲ است که برای یک طبقهبندی کاملاً تصادفی است. دادههای حاصل از رویدادهای واقعی و پیشبینیشده پس از این که حذف قطع شد، یک ماتریکس دستپاچگی (CM را ایجاد میکند، که نقطه شروع برای ارزیابی عملکرد طبقهبندی کننده دودویی است.
مطلبی دیگر از این انتشارات
تبادل داده، یا جنگ داده
مطلبی دیگر از این انتشارات
آینده تشخیص چهره در ایران
مطلبی دیگر از این انتشارات
روش OCR فارسی مبتنی بر زیرکلمات با استفاده از ویژگی های استخراج شده از خود رمزکننده خودکار و دسته بندی آبشاری