معرفی مدل و الگوریتم درخت تصمیم داده کاوی

1402/06/14

دسترسی سریع


مدل و الگوریتم درخت تصمیم داده کاوی

درخت­های تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار می­شوند. برای مثال، می­خواهیم متقاضیان وام را به دارندگان ریسک اعتبار خوب و بد تقسیم کنیم. شکل یک درخت تصمیم را که این مسئله را حل می­کد نشان می­دهد و همه مؤلفه­ های اساسی یک یک درخت تصمیم در آن نشان داده شده است : نود تصمیم، شاخه ­ها و برگ­ها

123

براساس الگوریتم، ممکن است دو یا تعداد بیشتری شاخه داشته باشد. برای مثال، CART درختانی با تنها دو شاخه در هر نود ایجاد می­کند. هر شاخه منجر به نود تصمیم دیگر یا یک نود برگ می­شود. با پیمایش یک درخت تصمیم از ریشه به پایین به یک مورد یک رده یا مقدار نسبت می­دهیم. هر نود از داده ­های یک مورد برای تصمیم­ گیری درباره آن انشعاب استفاده می­کند.

درخت­های تصمیم از طریق جداسازی متوالی داده­ها به گروه­های مجزا ساخته می­شوند و هدف در این فرآیند افزایش فاصله بین گروه­ها در هر جداسازی است.

یکی از تفاوت­ها بین متد­های ساخت درخت تصمیم این است که این فاصله چگونه اندازه­ گیری می­شود. درخت­های تصمیمی که برای پیش­بینی متغیرهای دسته­ ای استفاده می­شوند، درخت­ های classification نامیده می­شوند زیرا نمونه­ ها را در دسته ­ها یا رده­ ها قرار می­دهند. درخت­های تصمیمی که برای پیش­بینی متغیرهای پیوسته استفاده می­شوند درخت­های regression نامیده می­شوند.

هر مسیر در درخت تصمیم تا یک برگ معمولا قابل فهم است. از این لحاظ یک درخت تصمیم می­تواند پیش­بینی­ های خود را توضیح دهد، که یک مزیت مهم است. با این حال این وضوح ممکن است گمراه­کننده باشد. برای مثال، جداسازی های سخت در درخت­های تصمیم دقتی را نشان می­دهند که کمتر در واقعیت نمود دارند. (چرا باید کسی که حقوق او ۴۰۰۰۰۱ است از نظر ریسک اعتبار خوب باشد درحالیکه کسی که حقوقش ۴۰۰۰۰ است بد باشد. بعلاوه، از آنجاکه چندین درخت می­توانند داده­ های مشابه­ای را با دقت مشابه نشان دهند، چه تفسیری ممکن است از قوانین شود؟

درخت­های تصمیم تعداد دفعات کمی از داده­ ها گذر می­کنند (برای هر سطح درخت حداکثر یک مرتبه) و با متغیرهای پیش­بینی­ کننده زیاد بخوبی کار می­کنند. درنتیجه، مدل‌ها بسرعت ساخته می­شوند، که آنها را برای مجموعه ­داده های بسیار مناسب می­سازد. اگر به درخت اجازه دهیم بدون محدودیت رشد کند زمان ساخت بیشتری صرف می­­شود که غیرهوشمندانه است، اما مسئله مهمتر این است که با داده ­ها overfit می­شوند. اندازه درخت­ها را می­توان از طریق قوانین توقف کنترل کرد. یک قانون معمول توقف محدود کردن عمق رشد درخت است.

راه دیگر برای توقف هرس کردن درخت است. درخت می­تواند تا اندازه نهایی گسترش یابد، سپس با استفاده از روش­های اکتشافی توکار یا با مداخله کاربر، درخت به کوچکترین اندازه­ای که دقت در آن از دست نرود کاهش می­یابد.

یک اشکال معمول درخت­های تصمیم این‌ است‌که آ‌‌‌‌ن‌ها تقسیم­کردن را براساس یک الگوریتم حریصانه انجام می­دهند که در آن تصمیم­ گیری اینکه براساس کدام متغیر تقسیم انجام شود، اثرات این تقسیم در تقسیم ­های آینده را درنظر نمی­گیرد.

بعلاوه الگوریتم­ هایی که برای تقسیم استفاده می­شوند، معمولا تک ­متغیری هستند: یعنی تنها یک متغیر را در هر زمان در نظر می­گیرند. درحالیکه این یکی از دلایل ساخت سری مدل است، تشخیص رابطه بین متغیرهای پیش­بینی کننده را سخت­تر می­کند.

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

مشاهده نقشه سایت
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved