فرآیند دیریکله

1402/06/14

دسترسی سریع


sdata.ir

در نظریه احتمالات ،  فرایند دیریکله یک فرایند تصادفی است. این فرایند یک توزیع روی توزیع هاست.

یک فرایند دیریکله با 24مشخص می شود که در آن 9توزیع پایه است و 25پارامتر تراکم نامیده می شود. اگرچه توزیع پایه یعنی 9 پیوسته است، اما مقادیر ایجاد شده توسط فرایند دیریکله گسسته هستند. یعنی ممکن است تکرار شوند.  احتمال اینکه مقادير تکرار شوند، چقدر است بستگی به پارامتر25دارد.

توجه کنید که فرایند دیریکله یک فرایند تصادفی است؛ یعنی تشکیل شده از بی نهایت متغیر تصادفی است. حال می توان یک فرایند دیریکله را به اینصورت ایجاد کرد: یک توزیع تصادفی انتخاب می کنیم و بی نهایت متغیر تصادفی را در نظر بگیرید که بی نهایت مقدار تصادفی از آن را مشخص می کنند. می توان این فرایند را توسط سناریوهای دیگری نیز تصویر کرد؛ مانند فرایند رستوران چینی یا فرایند شکستن چوب.

راه دیگر برای تصور فرایند دیریکله تصور یک توزیع دیریکله بینهایت است. با میل دادن ابعاد یک توزیع دیریکله متقارن 26 بعدی با پارامتر تراکم 27 به بی نهایت، می توان به فرایند شکستن چوب رسید که تجسمی دیگر برای فرایند دیریکله است.

اولین بار فرایند دیریکله توسط توماس فرگوسن معرفی شده است.

توزیع مخلوط زیر را در نظر بگیرید:

28

مجموعه 29داده های مشاهده هستند که مطابق توزیع مخلوط با 26مولفه توزیع شده اند و هر مولفه دارای توزیع ثابت 30است، بطوریکه هر مولفه دارای پارامتر متفاوتی برای 31است که به نوبه ی خود از توزیع 9بدست آمده است. معمولاً توزیع 9، مزدوج پیشین توزیع 32 است.

فرآیند دیریکله سلسله مراتبی یا HDP:

در آمار و یادگیری ماشینی یک مدل در احتمالات بیزی و آمار ناپارامتری است که قابلیت های بسیاری در خوشه بندی داده ها دارد. [۱][۲] این مدل از فرایند دیریکله برای هر دسته از داده ها استفاده می کند که دارای یک توزیع پایه مشترک هستند که آن نیز به نوبه ی خود از یک فرایند دیریکله انتخاب شده است. این مدل این امکان را می دهد تا بعضی از شاخه ها  اشتراک هایی با هم داشته باشند.

این مدل مخصوص داده هایی است که دارای گروه بندی هستند، مانند آنچه در مدل عناوین وجود دارد، یعنی داده هایی که دارای گروه های مختلف هستند. یعنی مجموعه ای از فایل های متنی که هر کدام تشکیل شده از کیفی از کلمات هستند. گروه ها با 7مشخص می شوند که هرگروه تشکیل شده از داده های 8است.

در HDP توزیع پایه را با 9نشان می دهیم که توزیع پیشین روی داده هاست و پارامتر تراکم که مقدار خوشه ها را کنترل می کند. گروه 10 ام با 11مشخص می شوند که توسط فرایند دیریکله بدست می آید: 12 که در آن 13پارامتر تراکمی مربوط به گروه مربوطه است و 14توزیع پایه مشترک بین تمام گروه هاست که خود یک فرایند دیریکله است 15و توزیع پایه 9. به ازای هر داده 22یک متغیر پنهان 16در نظر می گیریم.

17

می دانیم که نمونه برداری از فرایند دیریکله در حقیقت مقادیری هستند که دارای مجموع یک هستند؛ لذا می توان 14را بصورت زیر نشان داد:

18 که تشکیل شده از بینهایت مقدار است و مجموع جرم های 23برابر با یک است. خود 14نیز به نوبه ی خود توزیع پایه برای فرایند دیریکله مربوط به خوشه هاست. یعنی هر19 دارای توزیع پایه 14هستند که به  فرم زیر نوشته می شوند:

20 21  

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

Sitemap
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved