نحوه محاسبه تابع لجیت ترتیبی در نرم افزار STATA
دسترسی سریع
رگرسیون های لجیت ترتیبی که به Ordinal Logistic Regression معروف هستند نوع نسبتا جدیدی از توابع لجیت محسوب می شوند که در آنها متغیر وابسته یک متغیر گسسته و دارای ترتیب در طبقات است. به عنوان مثال زمانیکه بازار یابان یک شرکت بخواهد بر روی عوامل موثر بر انتخاب سایز بسته های یک محصول کار کنند، یا برند های سه گانه که نسبت های قیمتی متفاوتی دارند باید از رگرسیون های ترتیبی استفاده کند. این توابع نسبت به متد های جایگزین مانند تحلیل تشخیصی که روشی کاملا کمی است مزیت های بیشتری دارد. در این مقاله هدف ارائه نحوه محاسبه تابع لجیت ترتیبی در نرم افزار STATA به عنوان یکی از نرم افزار های قدرتمند آنالیز چند متغیره است.
به عنوان مثال می خواهیم مطالعه کنیم در اشتیاق هنرجویان در سه سطح کم، متوسط و زیاد چه متغیر هایی اثر گذار هستند. متغیر های مستقل تحصیلات والدین، نوع دانشگاهی که دانشجویان از آن فارغ التحصیل شده اند و معدل دانشجویان مورد نظر هستند که ترکیبی از متغیر های کیفی و کمی هستند. دستورات زیر را برای آماره های توصیفی وارد می کنیم.
tab apply tab pared tab public summarize gpa نتایجی به شرح زیر قابل دسترسی خواهد بود. apply | Freq. Percent Cum. ------------+----------------------------------- 0 | 220 55.00 55.00 1 | 140 35.00 90.00 2 | 40 10.00 100.00 ------------+----------------------------------- Total | 400 100.00 tab pared pared | Freq. Percent Cum. ------------+----------------------------------- 0 | 337 84.25 84.25 1 | 63 15.75 100.00 ------------+----------------------------------- Total | 400 100.00 public | Freq. Percent Cum. ------------+----------------------------------- 0 | 343 85.75 85.75 1 | 57 14.25 100.00 ------------+----------------------------------- Total | 400 100.00 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- gpa | 400 2.998925 .3979409 1.9 4در صورتیکه در طبقات و سلول ها موارد کوچک یا خالی وجود داشته باشد نمی توان از این روش رگرسیون استفاده نمود. به این منظور دستورات زیر را وارد نمود.
تابع ologit به منظور انجام رگرسیون ترتیبی در این نرم افزار مورد استفاده قرار می گیرد به عنوان مثال در مثال حاضر باید دستور را به شکل زیر وادر نمود. ologit apply pared public gpa خروجی به شرح زیر ظاهر خواهد شد Iteration 0: log likelihood = -370.60264 Iteration 1: log likelihood = -358.605 Iteration 2: log likelihood = -358.51248 Iteration 3: log likelihood = -358.51244 Ordered logistic regression Number of obs = 400 LR chi2(3) = 24.18 Prob > chi2 = 0.0000 Log likelihood = -358.51244 Pseudo R2 = 0.0326 ------------------------------------------------------------------------------ apply | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601 public | -.0586828 .2978588 -0.20 0.844 -.6424754 .5251098 gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573 -------------+---------------------------------------------------------------- /cut1 | 2.203323 .7795353 .6754622 3.731184 /cut2 | 4.298767 .8043146 2.72234 5.875195در قسمت اول خروجی شاهد معیار های لگاریتمی هستیم که عمدتا برای همگرایی داده ها و مدل مورد استفاده قرار می گیرند و حاوی اطلاعات چنوان مهمی نیستند. آخرین مقدار آن -358.51244 می باشد که برای مقایسان مدل های مورد استفاده قرار می گرد. به عنوان مثال در نظر بگیرید اگر برای این معادله این اطلاعات را از چندین داده داشتیم آن مدلی که دارای مقدار Log بالاتری بود از کارایی بهتری برخوردار است. مقدار chi-square در این تابع 24.18بوده و به لحاظ آماری معنی دار است. لذا می توان گفت به لحاظ اماری این تابع قابل اتکاء است.
مقادیر Pseudo R2 در این تابع عمدتا برای مقایسات بین مدل استفاده می شود. به عبارت دیگر تفسیر انها به راحتی رگرسیون خطی نیست و صرفا به عنوان شاخص برازش استفاده می شوند. باید به لفظ Pseudo یا کاذب دقت بیشتری شود.
در قسمت ضرایب مشخص می شود که وضعیت تحصیل والدین و معدل بر تفکیک علاقه سه گانه هنرجویان موثر است لیکن ازاد یا دولتی بودن دانشگاه محل تحصیل بی تاثیر است. بر این اساس می توان گفت یک واحد افزایش در سطح تحصیلات والدین از نداشتن به داشتن منجر به 05/1 واحد افزایش در لگاریتم برتری برای سطوح بالاتر علاقه مندی می شود. به عبارت دیگر شانس اینکه فردی علاقه مند باشد با داشتن تحصیلات پدر و مادر بیشتر می شود. از سوی دیگر یک واحد افزایش در معدل سبب 62/0 برابر شدن شانس برتری علاقه مندی می شود. از این مقادیر نمی توان استفاده عملی نمود و فقط برای تابع استفاده می شود لذا باید دستور زیر را وارد نمود.
ologit apply pared public gpa, or Iteration 0: log likelihood = -370.60264 Iteration 1: log likelihood = -358.605 Iteration 2: log likelihood = -358.51248 Iteration 3: log likelihood = -358.51244 Ordered logistic regression Number of obs = 400 LR chi2(3) = 24.18 Prob > chi2 = 0.0000 Log likelihood = -358.51244 Pseudo R2 = 0.0326 ------------------------------------------------------------------------------ apply | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- pared | 2.850982 .75776 3.94 0.000 1.69338 4.799927 public | .9430059 .2808826 -0.20 0.844 .5259888 1.690644 gpa | 1.851037 .4824377 2.36 0.018 1.11062 3.085067 -------------+---------------------------------------------------------------- /cut1 | 2.203323 .7795353 .6754622 3.731184 /cut2 | 4.298767 .8043146 2.72234 5.875195این نتایج نشان می دهد با تبدیل وضعیت تحصیلات والدین به تحصیل کرده و یک واحد افزایش معدل، به ترتیب شانس افزایش علاقه مندی را تا 85/2 و 85/1 برابر افزایش می دهند که مقادیری بسیار قابل توجه هستند. کاربرد این دستور مانند زمانی است که listcoeff را وارد کنیم. که در این صورت خروجی به شرح زیر با این جزئیات آورده می شود.
---------------------------------------------------------------------- apply | b z P>|z| e^b e^bStdX SDofX -------------+-------------------------------------------------------- pared | 1.04766 3.942 0.000 2.8510 1.4654 0.3647 public | -0.05868 -0.197 0.844 0.9430 0.9797 0.3500 gpa | 0.61575 2.363 0.018 1.8510 1.2777 0.3979 ---------------------------------------------------------------------- b = raw coefficient z = z-score for test of b=0 P>|z| = p-value for z-test e^b = exp(b) = factor change in odds for unit increase in X e^bStdX = exp(b*SD of X) = change in odds for SD increase in X SDofX = standard deviation of X listcoef, help percent ologit (N=400): Percentage Change in Odds Odds of: >m vs <=m ---------------------------------------------------------------------- apply | b z P>|z| % %StdX SDofX -------------+-------------------------------------------------------- pared | 1.04766 3.942 0.000 185.1 46.5 0.3647 public | -0.05868 -0.197 0.844 -5.7 -2.0 0.3500 gpa | 0.61575 2.363 0.018 85.1 27.8 0.3979 ---------------------------------------------------------------------- b = raw coefficient z = z-score for test of b=0 P>|z| = p-value for z-test % = percent change in odds for unit increase in X %StdX = percent change in odds for SD increase in X SDofX = standard deviation of Xیکی از پیش فرض های تمام روش های رگرسیون لجیت این است رابطه بین هر دو جفت از خروجی های سطوح متغیر وابسته مشابه است. به عبارت دیگر ordinal logistic regression پیش فرضی دارد که ضرایب توصیف کننده روابط که از سطوح کم تا زیاد متغیر وابسته در نوسان هستند، دارای سهم های یکسان هستند.
با دستورات omodel و brant می توان به نسبت های برابری دست یافت که دستور اول را باید دانلود نمود و برای این منظور کافی است دستور findit omodel را وارد نمود. لذا دستور به شکل زیر تغییر می یابد.
Iteration 0: log likelihood = -370.60264 Iteration 1: log likelihood = -358.605 Iteration 2: log likelihood = -358.51248 Iteration 3: log likelihood = -358.51244 Ordered logit estimates Number of obs = 400 LR chi2(3) = 24.18 Prob > chi2 = 0.0000 Log likelihood = -358.51244 Pseudo R2 = 0.0326 ------------------------------------------------------------------------------ apply | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601 public | -.0586828 .2978588 -0.20 0.844 -.6424754 .5251098 gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573 -------------+---------------------------------------------------------------- _cut1 | 2.203323 .7795353 (Ancillary parameters) _cut2 | 4.298767 .8043146 ------------------------------------------------------------------------------ Approximate likelihood-ratio test of proportionality of odds across response categories: chi2(3) = 4.06 Prob > chi2 = 0.2553 سپس دستور brant, detail را باید وارد نمود. Estimated coefficients from j-1 binary regressions y>0 y>1 pared 1.0596117 .915596 public -.20055709 .53508208 gpa .54824568 .73632132 _cons -1.9829709 -4.7544684 Brant Test of Parallel Regression Assumption Variable | chi2 p>chi2 df -------------+-------------------------- All | 4.34 0.227 3 -------------+-------------------------- pared | 0.13 0.716 1 public | 3.44 0.064 1 gpa | 0.18 0.672 1 ---------------------------------------- A significant test statistic provides evidence that the parallel regression assumption has been violated.نتایج هر دو ستور نشان می دهند که از پیش فرض برابر ی نسبت بین سطوح متغیر وابسته خارج نشده ایم و نتایج قابل اتکاء است. در نهایت دستور estout می تواند منجر به اطلاعات بهتری برای نشر یافته های تابع لجیت شود. این دستور خلاصه نتایج را برای تحلیل نشان می دهد.
estout, varwidth(12) varlabels(_cons Constant) cells(b(star fmt(%8.2f)) /// se(par fmt(%8.2f))) /// stats(ll chi2 r2_p, labels(log_likelihood LR_chi_square r2_pvalue) fmt(%8.2f)) b/se apply pared 1.05*** (0.27) public -0.06 (0.30) gpa 0.62* (0.26) cut1 Constant 2.20** (0.78) cut2 Constant 4.30*** (0.80) log_likelihood -358.51 LR_chi_square 24.18 r2_pvalue 0.03در این مقاله هدف ارائه نحوه محاسبه رگرسیون ترتیبی در نرم فزار STATA مورد توجه بود. این روش در این نرم افزار دارای خروجی مفصلی نسبت به سایر نرم افزار های آماری است و شاید بتوان گفت بهترین حالت خروجی را این نرم افزار برای این روش دارد. نتکه مهم در به کارگیری این روش این است که این روش به شدت به حجم نمونه وابسته است و باید دقت زیادی در تخمین آن داشت. به طور کلی این روش آماری برای موقعیت های گروهبندی روشی بسیار ایده ال به شمار می اید.
نظرات
هیچ نظری وجود ندارد.
افزودن نظر
Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved