بررسي مناسب بودن الگوي رگرسيون

1402/06/14

دسترسی سریع


بررسی فرض هاي زيربنايي هر رگرسيون (بررسي مناسب بودن الگوي رگرسيون)

آنچه که در ابتدا برای انجام هر رگرسیون بایستی در نظر گرفته شود فرض های زیربنایی است که تحلیل ها براساس آن ها انجام می پذیرد. اين نکته اي بسيار مهم است که متاسفانه اکثرا در تحليلها مورد غفلت قرار مي گيرد و نتايج آنرا دچار خدشه مي سازد. فرض های زیربنایی برای یک الگوی رگرسیون به صورت زیر است :

1)     جمله ی خطا ε دارای میانگین صفر است .

2)     جمله ی خطا ε دارای واریانس ثابت است .

3)     جمله ی خطا ε ناهمبسته اند .

4)     جمله ی خطا ε دارای توزیع نرمال است .

اگر الگوی برازش داده شده مناسب باشد باید مانده ها ، فرض های بیان شده ی فوق را تایید کنند . مانده اختلاف بین مقدار مشاهده شده و مقدار برازش شده بوسیله ی الگو است ، یعنی  {e_i} = {Y_i} - {\hat Y_i}. به عبارت دیگر مانده اندازه ای از تغییر پذیری متغیر پاسخ است که بوسیله ی الگوی رگرسیون بیان نمی شود. مانده ها را می توان نماینده ی خطاهای الگو در نظر گرفت و از این روی هر انحراف از فرض های چهارگانه ی رگرسیون در مورد خطاها باید در مانده ها دیده شود . یک راه مناسب برای این که ببینیم الگوی رگرسیون تا چه اندازه برای برازش به داده ها خوب است ، رسم نمودار مانده ها می باشد . نمودار مانده ها در مقابل مقادیر  برازش شده رسم نمودار مانده ها {e_i}ها (i=1,2,...,n)   در مقابل مقادیر برازش شده ی متناظر یعنی {\hat Y_i} ها در پی بردن به انواع متداول مناسب نبودن الگو مفید است . اگر مدل برازش شده مناسب باشد این نمودار بایستی نسبت به نقطه {e_i} = 0  متقارن بوده و نقاط حول این نقطه به طور یکنواخت پراکنده شده باشند . این وضعیت ثابت بودن واریانس خطاها را نشان می دهد .این نمودار به طور معمول در سه شکل زیر دیده می شود : فرض هاي زيربنايي  رگرسيون

نمودار (الف) وضعیت مطلوبی است که در آن واریانس خطاها ثابت است . در نمودار (ب) نقاط به صورت

قیفی شکل پراکنده شده اند و ثابت نبودن واریانس خطاها را نتیجه می دهد . در این حالت انجام آزمون ها و تشکیل فواصل اطمینان مقدور نبوده و همچنین برآورد پارامترها به روش کمترین مربعات امکان پذیر نیست و بایستی ضرایب را با کمک روش دیگری برآورد کرد . در چنین وضعیتی اگر متوجه ثابت نبودن واریانس جمله ی خطا نشویم و یا به آن اعتنا نکنیم ، با دو مشکل زیر مواجه می شویم :

الف) فرمول های رگرسیونی معمول واریانس های مربوط به پارامترها را کمتر از آنچه که واقعا هست نشان می دهند .

ب) فواصل اطمینانی که محاسبه می کنیم دارای ضرایب اطمینان کمتری از آنچه تصور می کردیم خواهد بود .

برای ثابت شدن واریانس ها بنا به نظر تحلیلگر آمار از تبدیلات تثبیت کننده ی واریانس و یا روش کمترین توان دوم وزنی می توان استفاده نمود .

آخرین حالت یعنی نمودار غیر خطی (ج) نشان می دهد که باید تبدیلی مانند تبدیلات لگاریتم یا توان دوم و... روی متغیر پیشگو صورت گیرد و یا متغیری به الگو اضافه شود.

نمودار مانده ها در برابر مقادیر متغیر های پیشگو

رسم مانده ها در مقابل متغیر پیشگو نیز می تواند مفید باشد. در این نمودار یک طرح قیفی شکل عدم ثبات واریانس ها را نشان می دهد. در صورتی که نقاط به صورت یکنواخت پراکنده شده باشند، می توان ثابت بودن واریانس ها را نتیجه گرفت .

فرض هاي زيربنايي  رگرسيون

نمودار مانده ها در برابر ترتیب زمان

در صورتی که دنباله ی زمانی که در آن داده ها جمع آوری شده اند معلوم باشد، رسم نمودار مانده ها در برابر ترتیب زمان می تواند مفید باشد . اگر این نمودار طرح خاصی نداشته باشد مبین فرض وجود استقلال است.

فرض هاي زيربنايي  رگرسيون

در صورتی که مانده ها در برابر زمان سیر افزایشی داشته باشند، نشان دهنده ی آن است که واریانس ها ثابت نبوده و به مرور زمان افزایش می یابد. مانند شکل (ب) .

فرض هاي زيربنايي  رگرسيون

وجود یک روند غیرخطی در نمودار مانده ها بیانگر آن است که الگوی برازش داده شده نمی تواند مناسب باشد در این صورت دو امکان وجود دارد : 1)     نیاز به یک یا چند جمله ی اضافی در الگو احساس می شود . 2)     الگو نیاز به یک تبدیل مناسب مانند تبدیل لگاریم یا توان دوم و...روی متغیر(های) پیشگو دارد . فرض هاي زيربنايي  رگرسيون نمودار احتمال نرمال

از آنجایی که در محاسبه ی آماره های t وF برای آزمون های رگرسیون و همچنین در محاسبه ی فواصل اطمینان، از فرض نرمال بودن خطاها استفاده می کنیم لذا انحراف های بزرگ از توزیع نرمال می تواند روی صحت و اعتبار نتایج بدست آمده تاثیرزیادی بگذارد.

علاوه بر این در صورتی که خطاها از توزیع های با دنباله های باریک تر یا پهن تر از توزیع نرمال پیروی کنند ، ممکن است برازش کمترین توان های دوم نسبت به تغییر کوچکی در داده ها حساس باشد .یک روش ساده برای بررسی فرض نرمال بودن رسم نمودار احتمال نرمال مانده ها است. اگر {e_i}  را به صورت صعودی مرتب کرده و {e_i} ها را در مقابل احتمال تجمعی {P_i} = \frac{{(i - 1/2)}}{n},,,i = 1,2,...,n رسم کنیم ، نقاط باید روی یک خط راست قرار گیرند.

فرض هاي زيربنايي  رگرسيون

وجود یک یا چند مانده ی بزرگ در این نمودار می تواند نشانه ای از وجود نقاط دور افتاده باشد که بایستی در مورد این نقاط تفحص بیشتری انجام شود.

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved