تحلیل اکتشافی داده ها (Exploratory Data Analysis):


1402/06/14

دسترسی سریع


 

تحلیل اکتشافی داده ها یا EDA ، مرحله اول و مهم در تحلیل هر گونه داده است. اهداف اصلی تحلیل اکتشافی عبارتند از:

  • شناسایی اشتباهات
  • بررسی فرضیات
  • انتخاب اولیه مدل‌های مناسب
  • تعیین روابط بین متغیرهای کمکی (تبیینی، توضیحی، مستقل)
  • ارزیابی اولیه میزان و جهت ارتباط میان متغیرهای مستقل و وابسته

به بیانی ساده تر هر روشی که مدل سازی آماری رسمی و استنتاجی را شامل نمیشود تحت عنوان تجزیه و تحلیل اکتشافی داده هاست .

به طور فرض یک جدول از داده ها  برای هر موضوع با متغیر های نتیجه و توضیحی در نظر گرفته شود به طوری که هر ستون آن شامل مقادیر عددی برای یک متغیر کمی خاص و یا یک متغیر قطعی باشد .روش های تحلیل اکتشافی داده ها به عنوان کمک در چنین وضعیتی مطرح می شود . چرا که یک ستون از اعداد و یا یک صفحه گسترده طیفی برای تعیین ویژگی های مهم داده ها زیاد مناسب و نیاز به تحلیل داده ها می باشد .

تحلیل اکتشافی داده ها به دو دسته طبقه بندی می شود :

  • گرافیکی یا غیر گرافیکی
  • تک متغیره یا چند متغیره

روش غیر گرافیکی به طور کلی شامل محاسبه آماری خلاصه داده هاست در حالی که روش گرافیکی خلاصه داده ها را به صورت نموداری یا تصویر به نمایش می گذارد .

روش های تک متغیره ، یک متغیر را در یک زمان در نظر می گیرد در حالی که روش های چند متغیره ، دو یا چند متغیر را در یک زمان درنظر گرفته و نیز به کشف روابط بین آنها می پردازد .که معمولا چند متغیره ها معمولا دو متغیره خواهد بود اما گاهی اوقات سه متییره یا بیشتر هم می باشد .

بدین ترتیب یک ایده خوب در  EDA انجام تک متغیره ها در هریک از اجزای چند متغیره و سپس درنظر گرفتن چند متغیره به صورت کلی می باشد .

فراتر از 4 دسته ایجاد شده (گرافیکی و غیر گرافیکی ، تک متغیره و چند متغیره ) هریک از دسته ها بر اساس نقش متغیر یعنی (نتیجه یا توضیحی ) و نوع آن (قطعی یا کمی ) مورد بررسی قرار می گیرد .

اگرچه دستورالعمل هایی درمورد تکنیک هایی که EDA در چه شرایطی می تواند مفید واقع شود وجود دارد اما هنر به کارگیری آنها از اهمیت بالایی برخوردار می باشد .

همچنین EDA به تکنیک های قبلی به کار گرفته شده محدود نمی شود و گاهی لازم است راه جدیدی برای تحلیل داده ها پیدا کنیم .

تک متغیره غیر گرافیکی EDA بسیاری از ویژگی های توزیعی نمونه هستند و به صورت کیفی در روش تک متغیره  EDA که گرافیکی از یک هیستوگرام می باشد دیده می شود.. باز هم، از این نظر کمی بنظر می رسد.یکی از بسیار نمونه ای که ممکن است وجود داشته باشد مراجعه به جمعیت می باشد.آنها بهترین بازتاب از تصادفی بودن را که به نوعی پارامتر های ناشناخته جمعیت مورد علاقه می باشد برآورد می کند.

 در حال حاضر ما علاقه مند به یادگیری آنچه می توانیم  اندازه گیری کنیم هستیم که نمونه ای  تصادفی از افراد جمعیت است. ، به عنوان  مثال 2-=x یک پرت است . به طور کلی هیچ تعریف به رسمیت شناخته شده رسمی برای پرت وجود ندارد، اما تقریبا به این معنی هستند که در خارج از مناطق یک توزیع که معمولا رخ می دهد این  مورد هم می تواند در نظر گرفته شود.

با استفاده از تحلیل اکتشافی می توان شاخص های مرکزی، پراکندگی، چولگی، کشیدگی داده ها را برای داده های کمی و گاهی اوقات  داده های ترتیبی را محاسبه کرد.

اگر ما برروی داده های مشاهده شده ی یک متغیر در N فرد تمرکز کنیم ، به عنوان مثال ، یک نمونه از اندازه n ، پس از آن علاوه بر نگاهی به آمار های مختلف نمونه ، ما نیاز به نگاه گرافیکی در توزیع روش نمونه داریم. روش های غیر گرافیکی و گرافیکی مکمل یکدیگر هستند.در حالی که روش غیر گرافیکی کمی و عینی هستند، اما یک تصویر کامل از داده ها را نمی دهد؛ بنابراین ، روش گرافیکی ، که کیفی تر هستند و شامل یک درجه از تجزیه و تحلیل ذهنی ، نیز مورد نیاز است.

مفاهیم شاخص مرکزی، پراکندگی وچوله هیچ معنی برای داده های طبقه اسمی نمی دهد، اما برای داده های طبقه ترتیبی گاهی اوقات استفاده از آن مود نیاز است.

نمودارهای دایره ای ، جعبه ای ، هیستوگرام و ... روش های گرافیکی قابل استفاده از تحلیل اکتشافی داده ها می باشند .

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved