فرآیند دیریکله
دسترسی سریع
در نظریه احتمالات ، فرایند دیریکله یک فرایند تصادفی است. این فرایند یک توزیع روی توزیع هاست.
یک فرایند دیریکله با مشخص می شود که در آن توزیع پایه است و پارامتر تراکم نامیده می شود. اگرچه توزیع پایه یعنی پیوسته است، اما مقادیر ایجاد شده توسط فرایند دیریکله گسسته هستند. یعنی ممکن است تکرار شوند. احتمال اینکه مقادير تکرار شوند، چقدر است بستگی به پارامتردارد.
توجه کنید که فرایند دیریکله یک فرایند تصادفی است؛ یعنی تشکیل شده از بی نهایت متغیر تصادفی است. حال می توان یک فرایند دیریکله را به اینصورت ایجاد کرد: یک توزیع تصادفی انتخاب می کنیم و بی نهایت متغیر تصادفی را در نظر بگیرید که بی نهایت مقدار تصادفی از آن را مشخص می کنند. می توان این فرایند را توسط سناریوهای دیگری نیز تصویر کرد؛ مانند فرایند رستوران چینی یا فرایند شکستن چوب.
راه دیگر برای تصور فرایند دیریکله تصور یک توزیع دیریکله بینهایت است. با میل دادن ابعاد یک توزیع دیریکله متقارن بعدی با پارامتر تراکم به بی نهایت، می توان به فرایند شکستن چوب رسید که تجسمی دیگر برای فرایند دیریکله است.
اولین بار فرایند دیریکله توسط توماس فرگوسن معرفی شده است.
توزیع مخلوط زیر را در نظر بگیرید:
مجموعه داده های مشاهده هستند که مطابق توزیع مخلوط با مولفه توزیع شده اند و هر مولفه دارای توزیع ثابت است، بطوریکه هر مولفه دارای پارامتر متفاوتی برای است که به نوبه ی خود از توزیع بدست آمده است. معمولاً توزیع ، مزدوج پیشین توزیع است.
فرآیند دیریکله سلسله مراتبی یا HDP:
در آمار و یادگیری ماشینی یک مدل در احتمالات بیزی و آمار ناپارامتری است که قابلیت های بسیاری در خوشه بندی داده ها دارد. [۱][۲] این مدل از فرایند دیریکله برای هر دسته از داده ها استفاده می کند که دارای یک توزیع پایه مشترک هستند که آن نیز به نوبه ی خود از یک فرایند دیریکله انتخاب شده است. این مدل این امکان را می دهد تا بعضی از شاخه ها اشتراک هایی با هم داشته باشند.
این مدل مخصوص داده هایی است که دارای گروه بندی هستند، مانند آنچه در مدل عناوین وجود دارد، یعنی داده هایی که دارای گروه های مختلف هستند. یعنی مجموعه ای از فایل های متنی که هر کدام تشکیل شده از کیفی از کلمات هستند. گروه ها با مشخص می شوند که هرگروه تشکیل شده از داده های است.
در HDP توزیع پایه را با نشان می دهیم که توزیع پیشین روی داده هاست و پارامتر تراکم که مقدار خوشه ها را کنترل می کند. گروه ام با مشخص می شوند که توسط فرایند دیریکله بدست می آید: که در آن پارامتر تراکمی مربوط به گروه مربوطه است و توزیع پایه مشترک بین تمام گروه هاست که خود یک فرایند دیریکله است و توزیع پایه . به ازای هر داده یک متغیر پنهان در نظر می گیریم.
می دانیم که نمونه برداری از فرایند دیریکله در حقیقت مقادیری هستند که دارای مجموع یک هستند؛ لذا می توان را بصورت زیر نشان داد:
که تشکیل شده از بینهایت مقدار است و مجموع جرم های برابر با یک است. خود نیز به نوبه ی خود توزیع پایه برای فرایند دیریکله مربوط به خوشه هاست. یعنی هر دارای توزیع پایه هستند که به فرم زیر نوشته می شوند:
نظرات
هیچ نظری وجود ندارد.
افزودن نظر
Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved