اشتباهات متداول آماری
دسترسی سریع
تناسب حجم نمونه با حجم جامعه معمولا تصور مي شود كه حجم (بزرگي، اندازه) نمونه بايد متناسب بابزرگي جامعه باشد. ولي البته چنين نيست. يكي از تصورات شهودي نادرست اين است كه اگر (براي مثال) از جامعه اي داراي ۱۰,۰۰۰ واحد نمونه اي به حجم ۵۰ لازم است، از جامعه اي داراي ۱۰۰,۰۰۰ واحد نمونه اي به حجم ۵۰۰ نياز داريم. در واقع جزو اولين دست آوردهاي آمار استنباطي (آمار مبتني بر حساب احتمالات) اين بود كه اين درك شهودي نادرست است.
جامعه هدف، جامعه در دسترس گرفتن نمونه از بخشي از جامعه و تعميم آن به كل جامعه بسيار متداول است. اين كار اغلب نادرست بوده و اگر آگاهانه انجام شود، تقلب محسوب مي شود. ولي تحت بعضي شرايط نه تنها اشكالي ندارد بلكه تنها راه انجام دادن پژوهش آماري مورد نظر است. مثلاً گرفتن نمونه از كارمندان، براي برآورد ميزان محبوبيت كانديدايي كه مدافع حقوق زنان است، كار درستي نيست. ولي گرفتن نمونه از دانش آموزان ابتدايي شهر مشهد و بررسي تاثير تنبيه بدني بر پيشرفت تحصيلي و تعميم نتايج به كل كلان شهر هاي ايران ممكن است قابل توجيه باشد. در مثال فوق، نتايج را مي توان به دانش آموزان ابتدايي كل کلان شهر ها در سال هاي آينده نيز تعميم داد. در واقع دليل انجام چنين تحقيقي فقط مي تواند امكان همين تعميم اخير باشد.
جايي كه استفاده از ميانگين درست نيست ميانگين راحت ترين معياري است كه مركز داده ها را نشان مي دهد ولي همواره مناسب ترين نيست. همه مي دانيم كه در جامعه هاي شديداً چوله، استفاده از ميانگين براي نشان دادن وسط جامعه مناسب نيست. براي مثال، جمله “ميانگين پاداش آخر سال كارمندان دولت ۲۹۰ هزارتومان است” ، با توجه به اين كه تعداد كمي وزير و مدير ارشد با پاداش بسيار زياد و تعداد زيادي كارمند جزء با پاداش بسيار كم وجود دارد، تصوير نادرستي از توزيع پاداش ها به خواننده مي دهد. اشتباه ديگري كه در پژوهش هاي آماري رايج تر است اين است كه بعضي اقدام به ميانگين گيري از مقادير متغيرهايي مي كنند كه در مقياس ترتيبي هستند. مي دانيم كه در مقياس ترتيبي، بر خلاف مقياس هاي فاصله اي و نسبتي، فواصل مساوي داراي ارزش يكسان نيستند و لذا ميانگين گيري از مقادير آن ها منطقي نيست.در اين موارد استفاده از ميانه البته اشكالی ندارد.
- همبستگي جعلي
در يك پژوهش، محققي همبستگي بين“B و “عيار چغندرهاي كرت “A “عيار چغندر هاي كرت را محاسبه و اعلان كرده است ! از بذر ب استفاده كرده است. تنها وجه تشابه (ارتباط) دو كرت در B از بذر الف و براي كرت A براي كرت اين است كه هر يك داراي ۳۶ بوته است. مثال ديگر محاسبه همبستگي بين“سن پزشكان مرد” و “سن پزشكان زن” در يك بيمارستان است ! چنين همبستگي هايي نه تنها قابل محاسبه نيستند، بلكه غير منطقي بوده و قابل تعريف نيز نمي باشند. براي تعريف (و محاسبه) همبستگي دو متغير، لازم است آن دو متغير روي واحدهاي يك مجموعه (نمونه) تعريف شده باشند. مثل همبستگي بين وزن و عيار چغندرهاي يك كرت. (واحد = چغندر) يا مثل همبستگي بين سن پزشكان يك بيمارستان با سن همسرانشان. (واحد = خانواد)
- استنباط عليت معكوس از همبستگي
آيا از اين كه”رتبه گروه هاي آمار دانشگاه ها با رتبه دانشگاه ها همبستگي قابل توجهي دارد“،مي توان نتيجه گرفت كه كيفيت يك دانشگاه به كيفيت گروه آمار آن بستگي دارد؟يا اين كه درست برعكس است و واقعيت اين است كه دانشگاه هاي خوب گروه هاي آمار با كيفيت دارند؟ متاسفانه آمار هيچ راهي براي پاسخ دادن به اين سوال ندارد. مثلا زماني كه دو متغير تقدم وتاخر زماني داشته باشند تشخيص علت و معلول ساده است.
- همبستگي صوري
بسيار پيش مي آيد كه همبستگي نسبتاً بالالايي بين دو متغير مشاهده مي شود، در حالي كه هيچ يك بر ديگري تاثير ندارد، بلكه پاي متغير سومي در كار است. براي مثال همبستگي بالايي بين جويدن آدامس و ارتكاب خلاف هاي رانندگي مشاهده مي شود، در صورتي كه هيچ يك علت يا معلول ديگري نيست، بلكه بي قراري و عصبي مزاج بودن فرد علتي براي هردو محسوب مي شود و با هر دو همبستگي واقعي دارد.
بروز اشتباه در اثر ادغام داده ها (تعارض سيمپسون) در اواسط جنگ جهاني دوم، كارمندي در وزارت دفاع آمريكا متوجه شد كه سهم زنان در تك تك صنايع آمريكا، نسبت به قبل از جنگ، افزايش يافته است، در حالي كه سهم زنان در كل صنايع آمريكا، نسبت به قبل از جنگ، كاهش يافته است ! مثال عددي زير امكان بروز تعارض هايي از اين دست را ثابت مي كند: داراي سرگرمي بدون سرگرمي الكترونيك الكترونيك قبول در خرداد ۱۲۰ ۱۸۶ تجدید ۴۲ ۷۱ جمع ۱۶۲ ۲۵۷ درصد قبولی ۷۴% ۷۲% گرچه تفاوت درصد قبولي در دو گروه معني دار نيست، ولي ارقام فوق با تصور قبلي ما در مورد اثر منفيِِ داشتن سرگرمي هاي الكترونيك در خانه بر موفقيت تحصيلي مغايرت دارد.
مشكل حجم نمونه بسيار زياد اكثر كساني كه تجربه اي در تحليل داده هاي آماري دارند مي دانند كه وقتي حجم نمونه بزرگ است شانس اين كه نتايجمان ” معني دار “ شوند بيشتر است. ۱- آيا وجود يا عدم همبستگي بين دو متغير يا وجود يا عدم تفاوت بين دو ميانگين جامعه به اين بستگي دارد كه ما چه حجم نمونه اي به كار ببريم؟
۲-آيا اگر حجم نمونه ما به اندازه كافي بزرگ باشد، مي توانيم از معني دار شدن نتايجمان اطمينان داشته باشيم؟ گرچه جواب سوال ( ۱) مسلماً (و عقلاً) منفي مي باشد ولي جواب سوال دوم متاسفانه مثبت است. چرا چنين است؟ دليل آن بسيار ساده است و آن اين واقعيت است كه در عمل (در مورد متغيرهاي پيوسته) هيچگاه تفاوت دو ميانگين جامعه (يا ضريب همبستگي دو متغير تصادفي) صفر نيست.حجم نمونه كوچك قادر به كشف تفاوت هاي كوچك (ضريب همبستگي هاي نزديك صفر) نيست، در صورتي كه حجم نمونه بزرگ به راحتي كوچك ترين تفاوت ها (كمترين ضرايب همبستگي) را ظاهر می سازد.
ما معمولاً سطح معني داري را برابر ۰۵/ ۰و گاهي هم (به ندرت) برابر ۰۱ /۰ می گیریم در صورتي كه، وقتي حجم نمونه بسيار بزرگ است، احتمال پذيرش نادرست H0 به مراتب از ۰/۰۱ و امثال آن كمتر است.
پس راه حل چيست؟ راه حل معقول اين است كه هيچگاه به بدست آوردن يك نتيجه معني دار اكتفا نكنيم بلكه همراه با انجام آزمون، تفاوت ميانگين دو جامعه (يا مقدار ضريب همبستگي) را نيز برآورد كنيم و در صورتي كه آن را ناچيز تشخيص دهيم، نتيجه را غير معني دار اعلام نماييم. محققي، زماني نمرات رياضي دانش آموزان دو ناحيه آموزش و پرورش را مقايسه كرده و تفاوت ميانگين نمرات رياضي دو ناحيه را بسيار بسيار معني دار يافته بود و از ناهماهنگي آموزش رياضي در دو ناحيه به شدت نگران شده بود. اما بعد از اينكه متوجه شدكه تفاوت ميانگين دو نمونه كمتر از ۰٫۰۳ بوده است و معني داري فوق العاده اين تفاوت به خاطر وجود چند هزار دانش آموز در هر گروه بوده است، نگراني اش برطرف شد.
نظرات
هیچ نظری وجود ندارد.
افزودن نظر
مشاهده نقشه سایت
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved