محاسبه فرم های درجه دوم و لجستیک تابع تشخیصی در Stata

1402/04/28

دسترسی سریع

هدف اصلی تابع تشخیصی ارائه یک تابع پیش بین برای تفکیک اعضای یک جامعه بر اساس قدرت تفکیکی متغیر های مستقل وارد شده به مدل است. متغيرهايي که بهترين تمايز را بين دو گروه قائل ميشوند هدف اوّليه تحليل تشخيصي است. متغيرهايي که بهترين قدرت تشخيص را دارند تحت عنوان متغيرهاي متمايز کننده شناخته ميشود. نظريه آغازين آن به دهه 1930 بر ميگردد، اوّلين بار اين تکنيک توسط فيشر در سال 1936 ابداع شد. در دهههاي 50 و 60 وارد حوزه علوم رفتاري شد. گاهي محققان تمايل دارند تعدادي از افراد و اشياء را به دو گروه يا چند گروه طبقهبندي کنند. هدف يافتن رويهاي است براي بدست آوردن معيارهاي پيشگو (Predictor) که با بهترين شکل آنها را طبقهبندي ميکند. در تحليل تشخيصي متغير وابسته يا معيار اندازهگيري شده در سطح اسمي (nominally-scaled criterion) است و xها فاصلهاي يا نسبي. برای درک بهتر روش حداکثر درست نمایی، مقالات مربوط به این موضوع را بررسی کنید.

این فرم رگرسیون با استفاده از فواصل مالاهونابیس به دنبال یافتن بهترین ترکیب خطی است که G-1 تابع استخراج می شود. همواره تابع اول قویترین است و تابع بعدی که به روش متعامد استخراج می شود سعی در بیان روابط تفکیکی باقیمانده دارد. مقدار ضریب همبستگی کانونی میزان رابطه بین گروه های شکل گرفته بر اساس اطلاعات متغیر های مستقل و تابع ارائه شده را نشان می دهد. هر چه این میزان بالاتر باشد نشان می دهد قدرت تفکیک تابع بیشتر است. فرم غالب مورد استفاده تابع تشخیصی فرم خطی کلاسیک است. نرم افزار STATA نسخه 10 به بعد قادر به انجام فرم هایی به غیر از تابع خطی است. این نرم افزار قادر به محاسبه تابع تشخیصی نزدیک ترین همسایه، تابع تشخیصی لجستیک و تابع تشخیصی درجه دوم می باشد. دستور کلی زیر برای محاسبه فرم خطی مناسب است:

candisc نام متغیر های مستقل با فاصله, group(نام متغیر گروهبندی) به منظور محاسبه فرم تابع درجه دوم باید دستور زیر را وارد نمود: discrim qda نام متغیر های مستقل با فاصله, group(نام متغیر گروهبندی) به منظور محاسبه فرم تابع تشخیصی نزدیکترین همسایه باید دستور زیر را وارد نمود: discrim knn نام متغیر های مستقل با فاصله, group(نام متغیر گروهبندی) k(3) به منظور محاسبه فرم تابع تشخیصی لجستیک باید دستور زیر را وارد نمود: discrim logistic نام متغیر های مستقل با فاصله, group(نام متغیر گروهبندی) ابتدا به منظور محاسبه فرم خطی کافی است تا candisc نام متغیر های مستقل با فاصله, group(نام متغیر گروهبندی)

را وارد خط فرمان STATA نمود. نتایج به شرح زیر خواهد بود. از انجا که متغیر گروهبندی در مثال دارای سه سطح بوده لذا دو تابع تشخیصی استخراج شده است که بر اساس نتایج تست ویلکز هر دو تابع معنی دار هستند و باید از قدرت تشخیصی هر دو استفاده نمود. همچنین درک مفهوم تابع گاما نیز می تواند در مواد گوناگون به شما کمک کند.

Canonical linear discriminant analysis | | Like- | Canon. Vlihood Eigen-ariance | Fcn | Corr. value Prop. Cumul. | Ratio F df1 df2 Prob>F ----+---------------------------------+------------------------------------ 1 | 0.9848 32.1919 0.9912 0.9912 | 0.0234 199.15 8 288 0.0000 e 2 | 0.4712 .285391 0.0088 1.0000 | 0.7780 13.794 3 145 0.0000 e --------------------------------------------------------------------------- Ho: this and smaller canon. corr. are zero; e = exact F Standardized canonical discriminant function coefficients | function1 function2 -------------+---------------------- sl | -.4269549 -.0124077 sw | -.5212416 -.7352612 pl | .9472573 .4010379 pw | .5751607 -.5810398 Canonical structure | function1 function2 -------------+---------------------- sl | .2225959 -.3108118 sw | -.1190115 -.8636809 pl | .7060654 -.1677014 pw | .6331779 -.7372421 Group means on canonical variables Type | function1 function2 -------------+---------------------- setosa | -7.6076 -.215133 versicolor | 1.825049 .7278996 virginica | 5.78255 -.5127666 Resubstitution classification summary

مشخصا هدف هر تابع تشخیصی نهایتا تفکیک است. بر اساس این تابع و ضرایب کانونی محاسبه شده، مشخص می شود که 100 درصد setosa، 96 درصد تیپ versicolor و 98 درصد virginica به درستی توسط این توابع تفکیک شده اند.

| Classified True type | setosa versicolor virginica | Total -------------+------------------------------------+----------- setosa | 50 0 0 | 50 | 100.00 0.00 0.00 | 100.00 | | versicolor | 0 48 2 | 50 | 0.00 96.00 4.00 | 100.00 | | virginica | 0 1 49 | 50 | 0.00 2.00 98.00 | 100.00 -------------+------------------------------------+----------- Total | 50 49 51 | 150 | 33.33 32.67 34.00 | 100.00 | | Priors | 0.3333 0.3333 0.3333 | /* group summarize */ estat grsummarize Estimation sample candisc Summarized by type | type Mean | setosa versicolor virginica | Total -------------+------------------------------------+----------- sl | 5.006 5.936 6.588 | 5.843333 sw | 3.428 2.77 2.974 | 3.057333 pl | 1.462 4.26 5.552 | 3.758 pw | .246 1.326 2.026 | 1.199333 -------------+------------------------------------+----------- N | 50 50 50 | 150 به منظور استخراج پلات تفکیک نیز دستور زیر وارد می شود: label define tl 1 "S" 2 "C" 3 "V", modify scoreplot, msymbol(i) نتایج این اطلاعات به شکل توزیع درجه دوم به شرح زیر است discrim qda sl sw pl pw, group(type) Quadratic discriminant analysis Resubstitution classification summary | Classified True type | setosa versicolor virginica | Total -------------+------------------------------------+----------- setosa | 50 0 0 | 50 | 100.00 0.00 0.00 | 100.00 | | versicolor | 0 48 2 | 50 | 0.00 96.00 4.00 | 100.00 | | virginica | 0 1 49 | 50 | 0.00 2.00 98.00 | 100.00 -------------+------------------------------------+----------- Total | 50 49 51 | 150 | 33.33 32.67 34.00 | 100.00 | | Priors | 0.3333 0.3333 0.3333 |

بر اساس این تابع و ضرایب کانونی محاسبه شده به فرم درجه دوم، مشخص می شود که 100 درصد setosa، 96 درصد تیپ versicolor و 98 درصد virginica به درستی توسط این توابع تفکیک شده اند. نتایج این اطلاعات به شکل تشخیصی لجستیک به شرح زیر است.

discrim logistic sl sw pl pw, group(type) Iteration 0: log likelihood = -164.79184 Iteration 1: log likelihood = -67.780459 (omitted) Iteration 22: log likelihood = -5.9492736 Iteration 23: log likelihood = -5.9492736 Logistic discriminant analysis Resubstitution classification summary | Classified True type | setosa versicolor virginica | Total -------------+------------------------------------+----------- setosa | 50 0 0 | 50 | 100.00 0.00 0.00 | 100.00 | | versicolor | 0 49 1 | 50 | 0.00 98.00 2.00 | 100.00 | | virginica | 0 1 49 | 50 | 0.00 2.00 98.00 | 100.00 -------------+------------------------------------+----------- Total | 50 50 50 | 150 | 33.33 33.33 33.33 | 100.00 | | Priors | 0.3333 0.3333 0.3333 |

بر اساس این تابع و ضرایب کانونی محاسبه شده به فرم لجستیک، مشخص می شود که 100 درصد setosa، 98درصد تیپ versicolor و 98 درصد virginica به درستی توسط این توابع تفکیک شده اند. نتایج این اطلاعات به شکل تشخیصی نزدیک ترین همسایه به شرح زیر است.

discrim knn sl sw pl pw, group(type) k(3) Kth-nearest-neighbor discriminant analysis Resubstitution classification summary | Classified True type | setosa versicolor virginica | Total -------------+------------------------------------+----------- setosa | 50 0 0 | 50 | 100.00 0.00 0.00 | 100.00 | | versicolor | 0 47 3 | 50 | 0.00 94.00 6.00 | 100.00 | | virginica | 0 3 47 | 50 | 0.00 6.00 94.00 | 100.00 -------------+------------------------------------+----------- Total | 50 50 50 | 150 | 33.33 33.33 33.33 | 100.00 | | Priors | 0.3333 0.3333 0.3333 |

بر اساس این تابع و ضرایب کانونی محاسبه شده به فرم لجستیک، مشخص می شود که 100 درصد setosa، 94درصد تیپ versicolor و 94درصد virginica به درستی توسط این توابع تفکیک شده اند. باید توجه شود که برای گزارش نهایی تابعی که دارای بیشترین قدرت تفکیک باشد را به عنوان تابع اصلی در نظر گرفته و ضرایب ساختاری آنرا گزارش نمود. به عنوان مثال در تحقیق حاضر تابع لجستیک عملکرد تا حدی بهینه تر از سایر توابع دارد. در این مقاله هدف ارائه توابع محاسبه کننده فرم های مختلف تشخیصی در STATA بود. برای درک مفاهیم تابع تشخیصی می توان به کتاب آمار پیشرفته دکتر منصور فر مراجعه نمود.

نظرات

هیچ نظری وجود ندارد.

محاسبه فرم های درجه دوم و لجستیک تابع تشخیصی در Stata

دسترسی سریع

نظرات

افزودن نظر

آخرین مقالات