چکیده
در مدل های رگرسیون پارامتری سنتی، شکل عملکرد مدل قبل از تناسب مدل با دادهَ ها مشخص شده است و هدف برآوردکردن پارامترهای مدل می باشد. در مقابل، رگرسیون غیر پارامتری، هدف برآورد عملکرد رگرسیون بطورمستقیم بدون مشخص کردن شکل آن به روش صریح می باشد. فاکس و وایزبرگ (2011) در ضمیمه مقاله، ما توصیف می کنیم چگونه چند نوع مدل رگرسیون غیر پارامتری در R متناسب شود، شامل صاف کننده طرح مجزا، که یک پیشگویی واحد وجود دارد؛ مدل های رگرسیون چندگانه؛ مدل های رگرسیون افزایشی؛ و مدل های غير پارامتر-رگرسيون کلی که مشابه مدل های خطی تعميم يافته می باشد.
مدل های رگرسیون غیر پارامتری
مدل رگرسیون غیر خطی سنتی (در ضمیمه در رگرسیون غیرخطی توصیف شد) که ø یک بردار پارامترهای برآورد شده و x یک بردار پیش بینی کننده است؛ اشتباهات به طور عادی و به طور مستقل با میانگین 0 و واریانس ثابت σ فرض و توزیع می شود. تابع) ø m(x,مربوط به مقدار میانگین پاسخ y به پیش بینی کننده ها می باشد، که از قبل مشخص شده است، همانطور که در مدل رگرسیون خطی است.
برآورد
روش های متعددی برای تخمین مدل های رگرسیون غیر پارامتری وجود دارد که ما دو مورد توصیف خواهیم کرد: رگرسیون چندجمله ای محلی و اسپیلین های صاف. با توجه به پیاده سازی این روش ها در R، شرمندگی زیادی به همراه خواهد داشت:
• رگرسيون چندجمله ای محلی با استفاده از تابع استاندارد لس R انجام می شود (به صورت محلی با صاف کننده طرح مجزا وزنی، برای پرونده ساده رگرسیون) و لس (رگرسیون محلی، بصورت کلی تر)
• برآورد رگراسیون-ساده نوار-صاف توسط تابع استاندارد R نوار-صاف انجام می شود.
• رگراسیون کلی غیرپارامتریک با برآورد احتمالی محلی (که رگراسیون محلی مورد خاصی برای مدلهایی با خطای عادی هستند) که در بسته لاک فیت (تناسب محلی) (لورد 1999) اجرا می شود که برآورد چگالی را انجام می دهد.
رگرسیون چندجمله ای محلی
رگرسیون ساده
روال است که h تنظیم می شود تا اینکه هر رگرسیون محلی شامل یک مقدار ثابت s داده ها می باشد.سپس، S دامنه صاف کننده رگرسیون محلی نامیده می شود. طول بزرگتر، نتيجه نرمتر در مقابل، ترتیب بزرگتر رگرسیون های محلی می باشد، لذا دامنه و مرتبه رگرسیون های محلی راحت تر است تا به صورت یک طرفه به فروش برسد.
رگرسیون غیر پارامتر کلی
ما رگرسیون غیر پارامتر کلی را با تناسب مدل رگرسیون افزودنی نیمه پارامتریکی لجستیک، به داده های مشارکت نیروی کار مروز بیان خواهیم کرد (در فصل 5 شرح داده شده و در آن بسته ماشین گنجانده شده است). به یاد بیاورید که متغیر پاسخ در این مجموعه داده ها، LFP، یک عامل است که برای زنان در نیروی کار، بله و نه برای کسانی که نیستند، کد گذاری شده است. پیشگویی ها شامل تعداد کودکان 5 ساله یا کمتر (k5)می باشد؛ تعداد فرزندان 6 تا 18 ساله (k618)؛ سن زن، در سال؛ عوامل نشان می دهد که آیا زن (wc) و شوهرش (hc) در کالج حضور داشتند، بله یا خیر؛ و درآمد خانواده (inc)، به استثنای درآمد همسر و در 1000 دلار داده شده است. ما نادیده گرفتیم متغیر باقیمانده در مجموعه داده، ورودی نرخ دستمزد مورد انتظار همسر، lwg؛ همانطور که در متن توضیح داده شد، تعریف خاص از lwg باعث استفاده از آن مشکل می شود.
از آنجا که k5 وk618 گسسته هستند، با مقادیر نسبتا کمی متفاوت هستند، ما با این پیشگویی کننده مذکور به عنوان عوامل معامله خواهیم کرد، مدل سازی آنها به صورت پارامتری، همراه با عوامل wc و hc؛ همچنین، به خاطر تنها سه نفر با سه فرزند زیر 5 سال و فقط سه نفر با بیش از5 کودک بین 6 تا 18 ساله، ما از تابع ضبط در بسته بندی خودرو برای ضبط مقادیر غیرمعمول استفاده خواهیم کرد:
منابع و خواندن مکمل
رگرسيون غير پارامتري درFox ، (2008، فصل 18) بیان شده است.
تمام مدل های رگرسیون غیر پارامتری در این ضمیمه بحث شد(و برخی دیگر، مانند رگرسیون پیگیری-پروژه، رگرسيون، و طبقه بندی و درخت رگرسيون در فاکس (2000b، a) توصيف می شوند از آن نمونه هایی که در آپاندیس ظاهر می شوند، سازگار هستند.
کتاب های عالی و دامنه زیاد توسط هستی و تیبشیرانی (1990) و وود (2006) به ترتیب با بسته هایgam و mgcv مربوط می شوند، دومی بخشی از توزیع استاندارد R است. یک درمان بی نقص ازGAM و عملکرد gam در بستهgam در مقاله توسط هاستی (1992) به نظر می رسد.
این مقاله در سال 2010 منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله رگرسیون غیر پارامتری در R در سایت ای ترجمه مراجعه نمایید.