تحلیل تشخیص

1402/06/14

دسترسی سریع


تحلیل تشخیص

روشی است برای ترکیب کردن متغیرهای مستقل، برای ایجاد یک متغیر جدید که هر یک از شرکت کنندگان در بررسی، برای آن مقداری به دست می آورند. این متغیر جدید (که به نام تابع تشخیص شناخته میشود) به گونه ای ساخته می شود که مقدار هر شرکت کننده در آن، افراد را در طبقه های مختلف متغیر پاسخ جدا یا تفکیک کند. در تحلیل تشخیص، جهت آزمون کردن کارآیی تابع تشخیص(تابع تشخیص) در ایجاد تفاوت های معنی دار بین گروه های هدف، آماره ای به نام لاندای ویلک مورد استفاده قرار می گیرد.

به صورت رسمی تر، فرض کنید Y یک متغیر پاسخ است و ?1,z2,…,zp ، P متغیر مستقل باشند. هدف تحلیل تشخیص، پیدا کردن یک تابع خطی از متغیرهای مستقل به شکل زیر میباشد :

?=?+ ?1?1 +?2?2 + …+ ????

به طوری که مقادیر افراد برای Y با حداکثر ممکن در طبقه های متغیر وابسته پراکنده باشد. Y را تابع ممیز خطی می نامند.

اهداف تحلیل تشخیص به ترتیب عبارتند از :

-1 برای بیان نموداری یا جبری جنبه های اختلاف اشیاء (مشاهدات) از چندین مجموعه (امعه)که معلوم است، سعی میکنیم تفاوت هایی را پیدا کنیم که مقادیر عددی آنها، مجموعه ها را تا جایی که ممکن است از هم جدا کنند.

-2 برای جور کردن اشیاء(مشاهدات) به دو یا چند رده مشخص و درحقیقت به دست آوردن قاعده ای برای تخصیص بهینه یک شیء جدید به رده های مشخص.

به عبارت دیگر ایده اساسی تحلیل تشخیص عبارت است از تخصیص یک فرد یا گروهی از افراد به یکی از چند جمعیت معلوم یا مجهول، بر اساس مشاهدات.

تحلیل تشخیص خطی میتواند برای به دست آوردن یک مدل برای پیش بینی عضویت یکی از مشاهدات جدید به دو یا چند گروه مورد استفاده قرار گیرد. برای هر گروه، تحلیل تشخیص خطی فرض می کند که متغیرهای مستقل به صورت نرمال با ماتریس واریانس – کوواریانس یکسان توزیع شده اند، به همین دلیل گاهی اوقات به جای واژه تحلیل تشخیص از تحلیل تشخیص خطی استفاده شده است.

ساده ترین تحلیل تشخیص خطی دو گروه دارد. برای ممیز کردن بین این دو گروه، یک تابع ممیز خطی که از مرکز ثقل این دو گروه عبور می کند، می تواند مورد استفاده واقع شود. به عبارت دیگر وقتی تنها دو گروه وجود دارد فقط یک تابع تشخیص نیز وجود دارد. امّا وقتی بیشتر از دو گروه وجود دارد، توابع متعددی میتواند وجود داشته باشد.

رگرسیون لجستیک

هدف از رگرسیون لجستیک پیدا کردن بهترین برازش (مدل) برای تشریح رابطه میان برآمد (متغیر وابسته یا پاسخ) و مجموعه ای از متغیرهای مستقل (متغیرهای توضیحی( می باشد. این روش به نسبت انعطاف پذیر است و به آسانی مورد استفاده قرار میگیرد. رگرسیون لجستیک رویکرد دیگری برای پیش بینی طبقه ای است که نسبت به تحلیل تشخیص فرض های کمتری دارد. به عنوان مثال اگر بخواهیم اثر چند متغیر مستقل از قبیل میزان مصرف سیگار و میزان مصرف الکل را بر تشخیص وضعیت خونی افراد بسنجیم و فرض شود از 111 نفر، 22 نفر وضعیت خونی مورد نظر را دارند و 52 نفر ندارند، آنگاه این اعداد را می توان این گونه بیان کرد که شانس 1داشتن این وضعیت 25 به  75 (یعنی 1 به 3 )  است. به عبارت دیگر احتمال داشتن وضعیت مورد نظر 25از 100 است.

متأسفانه شانس به عنوان شاخصی از احتمال وقوع یک حادثه، دارای این اشکال است که، وقتی که یک حادثه احتمال بالایی دارد شانس آن میتواند مقادیر بینهایت بزرگی بگیرد. در حالی که اگر احتمال آن خیلی کم باشد، شانس تنها می تواند کسری بین صفر و یک باشد. این اشکال را می توان با گرفتن لگاریتم طبیعی از شانس برطرف کرد. این حالت را لگاریتم شانس   یا لوجیت  می نامند.

اگر لوجیت، یک مقدار منفی گرفت بدان معنی است که شانس، بر علیه وقوع حادثه است و اگر لوجیت یک مقدار مثبت گرفت بدان معنی است که شانس، به نفع وقوع حادثه است، هنگامی که شانس یک حادثه، پنجاه پنجاه باشد، مقدار لوجیت صفر میشود. رگرسیون لجستیک بسته به نوع متغیر پاسخ به سه دسته تقسیم میشود:

-1 رگرسیون لجستیک دوتایی : که زمانی مورد استفاده قرار میگیرد که متغیر پاسخ یک متغیر دو حالتی )دوبخشی ( است از قبیل healthy/ill, pass/fail, yes/no و غیره.

-2 رگرسیون لجستیک ترتیبی : که زمانی مورد استفاده قرار می گیرد که متغیر ترتیبی باشد. متغیرهای ترتیبی متغیرهای گروه بندی شده ای هستند که دارای سه سطح ممکن یا بیشتر از سه سطح می باشند که ترتیب طبیعی دارند. همانند کاملاً مخالف، مخالف، طبیعی، موافق و کاملاً موافق.

-3 رگرسیون لجستیک اسمی : که زمانی مورد استفاده قرار می گیرد که متغیر پاسخ یک متغیر اسمی است. متغیرهای اسمی، متغیرهای گروه بندی هستند که دارای سه سطح یا بیشتر بدون ترتیب طبیعی هستند. به عنوان مثال این سطوح در یک مطالعه بر روی طعم غذا ممکن است عبارت باشند از ترد وبرشته، خمیر مانند، سفت و غیره.

در حالتی که متغیر پاسخ دوبخشی است، مدل رگرسیون لجستیک میتواند به صورت زیر بیان شود :

ghg

که ?i ها متغیرهای تصادفی برنولی هستند که ضرایب این مدل با استفاده از روش ML برآورد میشود.

توجه کنید که رابطه ( 4) با رابطه ( 1) در تحلیل تشخیص مشابه است، یعنی از نظر شکل تابعی تفاوتی ندارد.

این دو رابطه فقط در برآورد ضرایب متفاوت هستند.

 

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved