رگرسیون چندک

1402/06/14

دسترسی سریع


رگرسیون چندک

مدل رگرسیون کمینه مربعات، ارتباط بین میانگین شرطی یک متغیر پاسخ برحسب یک یا چند متغیر توضیحی را بیان می کند و با وجود اینکه محبوب ترین تحلیل رگرسیونی است گاهی عملکرد ضعیفی دارد.

هنگامی که توزیع خطا غیر نرمال است به ویژه در توزیع های با دنباله های بلند و نامتقارن، همچنین در صورت وجود ناهمگنی واریانس، برآوردگرهای کمینۀ مربعات به داده های دور افتاده خیلی حساس بوده و این مورد منجر به برآوردهای اریب می گردد.

رگرسیون چندک ، تکنیکی است که می تواند بر محدودیت های یاد شده غلبه نماید. این مدل که توسط کاونکر و باست در سال 1978 معرفی گردید به تدریج به روش جامعی برای تجزیه و تحلیل آماری مدل های خطی و غیرخطی متغیرهای پاسخ، در زمینه های مهتلف تبدیل گردید. همینطور لازم است تا انواع رگرسیون نیز در این خصوص بشناسید.

به عنوان نمونه چندک های وزن، معیار مناسبی برای تشخیص مشکلات تغذیه ای کودکان و بررسی وزن آنها در طول زمان می باشد. برای بررسی عوامل مؤثر در کم بودن وزن هنگام تولد (وزن کمتر از 2500 گرم)، رگرسیون معمولی نمی تواند اندازۀ اثرات عوامل را در انتهای سمت چپ توزیع وزن نشان دهد.

با استفاده از رگرسیون چندک و برآورد یک خانواده از توابع چندک شرطی، شکل های کاملتری از اثر متغیرهای توضیحی در تمام قسمت های توزیع به دست می آید.

انگیزۀ اصلی به کارگیری رگرسیون چندک این است که با نگاهی دقیق و جامع در ارزیابی متغیر پاسخ، مدلی ارائه شود تا امکان دخالت متغیرهای مستقل، نه تنها در مرکز ثقل داده ها، بلکه در تمام قسمت های توزیع به ویژه در دنباله های ابتدایی و انتهایی فراهم گردد، بدون اینکه با محدودیت مفروضات رگرسیون معمولی، ناهم واریانسی و حضور تاثیرگذار داده های دورافتاده در برآورد ضرایب رو به رو باشیم.

در واقع رگرسیون چندک تعمیم مفهوم یک چندک به چندک شرطی می باشد؛ وقتی یک یا چند متغیر توضیحی وجود دارد. در مقایسه با روش های رگرسیون کمینه مربعات که در آن برآورد توابع شرطی میانگین بر پایۀ مینیمم کردن مجموع مربعات باقی مانده ها انجام می گیرد، روش های رگرسیون چندک براساس مینیمم کردن نامتقارن قدرمطلق موزون باقیمانده ها و با هدف برآورد توابع شرطی میانه و دامنۀ وسیعی از سایر توابع شرطی چندک مطرح می گردد.

اگر مدل رگرسیون خطی را به صورت {Y_i} = {{X'}_i}{\beta _\tau } + {\varepsilon _{{\tau _i}}} در نظر گرفته و فرض کنیم {Q_\tau }({\varepsilon _{{\tau _i}}}|{x_i}) = 0  ، آنگاه تابع چندک شرطی \tau ام توزیع Y به شرط متغیرهای توضیحی X به صورت زیر تعریف می شود:

{Q_\tau }({Y_i}|{x_i}) = {{x'}_i}{\beta _\tau }

برآورد پارامترهای مدل رگرسیون چندک به روش حداقل قدر مطلق انحرافات (LAD) انجام می گیرد. که در آن پارامتر رگرسیونی \tau امین چندک توزیع ، به صورت زیر به دست می آید:

\hat \beta (\tau ) = \min [\sum\limits_{i \in \left\{ {i:{y_i} \ge {{x'}_i}{\beta _{}}} \right\}} {\tau |} {y_i} - {{x'}_i}\beta |

 + \sum\limits_{i \in \left\{ {i:{y_i} < {{x'}_i}{\beta _{}}} \right\}} {(1 - \tau )|} {y_i} - {{x'}_i}\beta |]

 

 = {\min _{\beta \in {R^p}}}\sum\limits_{i = 1}^n {{\rho _\tau }({y_i} - } {{x'}_i}\beta )

 

 

 

که در آن {\rho _\tau }(u) تابع مقادیر قدر مطلق شیب است و به صورت  {\rho _\tau }(u) = u(\tau - I(u < 0)),0 < \tau < 1 تعریف شده و در آن I تابع نشانگر است.

رگرسیون چندک دارای محدودیت هایی نیز می باشد که از آن جمله می توان به غیر واقعی بودن خطی فرض کردن چندک ها اشاره نمود که تعیین متغیرهای پیشگوی مناسب را با مشکل مواجه می سازد.

محدودیت دیگر این است که در برآورد چندک های متعدد، احتمال تقاطع چندک ها وجود دارد، به ویژه زمانی که تعداد متغیرهای پیشگو زیاد و یا تعداد داده ها کم باشد.

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved