رگرسیون لجستیک: درک مبانی و کاربردها

1402/10/05

دسترسی سریع

در حوزه تحلیل داده و مدل‌سازی پیش‌بینی، رگرسیون لجستیک (Logistic Regression) به‌عنوان ابزار قدرتمند و گسترده محسوب می‌شود. توانایی آن در مقابله با مسائل دسته‌بندی دودویی و ارائه بینش‌های ارزشمند درباره احتمال روی دادن یک رویداد، آن را به ابزار ضروری برای پژوهشگران، تحلیلگران و دانشمندان داده تبدیل کرده است.
بی‌نظر از اینکه در زمینه تحقیقات پزشکی، تجزیه و تحلیل بازاریابی یا پیش‌بینی مالی فعالیت دارید، رگرسیون لجستیک یک ابزار چندمنظوره است که می‌تواند به شما در درک و پیش‌بینی نتایج کمک کند. با بررسی ارتباط بین متغیرهای مستقل متعدد و یک نتیجه دودویی، این مدل به شما اجازه می‌دهد تا احتمال وقوع یک رویداد را تخمین بزنید.
در این مقاله، به بررسی مبانی رگرسیون لجستیک می‌پردازیم، انواع و کاربردهای آن را توضیح می‌دهیم. همچنین آن را با ماشین لرنینگ و رگرسیون خطی مقایسه می‌کنیم.

آیا تا به حال به‌دنبال راهنمای عملی و ساده برای درک و استفاده از رگرسیون لجستیک در پروژه‌ها و تحلیل‌های خود بوده‌اید؟

مفهوم رگرسیون لجستیک

رگرسیون لجستیک (Logistic Regression) یک الگوریتم یادگیری ماشین نظارت شده است که عمدتا برای وظایف طبقه‌بندی (classification) استفاده می‌شود و هدف آن پیش‌بینی احتمال تعلق یک نمونه به یک کلاس مشخص است.
در واقع، رگرسیون لجستیک یک تابع خطی را به‌عنوان ورودی می‌گیرد و مقادیر آن را از طریق تابع سیگموئید (sigmoid function) به بازه‌ای محدود بین ۰ و ۱ تبدیل می‌کند. این مقادیر تفسیر شده و به‌عنوان احتمال تعلق به یک کلاس خاص تلقی می‌شوند. برای مثال، اگر احتمال تعلق یک نمونه به یک کلاس برابر با ۰.۸ باشد، به‌این معنی است که احتمال اینکه نمونه در آن کلاس قرار داشته باشد، بسیار بالاست.

مفهوم رگرسیون لجستیک

رگرسیون خطی در مقابل رگرسیون لجستیک

هر دو رگرسیون خطی و لجستیک مدل‌های محبوب در علم داده هستند و ابزارهای متن‌باز مانند Python و R ، محاسبات مربوط به آن‌ها را سریع و آسان می‌کنند.
>>>> مدل‌های رگرسیون خطی برای شناسایی رابطه بین یک متغیر وابسته پیوسته و یک یا چند متغیر مستقل استفاده می‌شوند. وقتی تنها یک متغیر مستقل و یک متغیر وابسته وجود داشته باشد، به آن رگرسیون خطی ساده گفته می‌شود، اما با افزایش تعداد متغیرهای مستقل، به رگرسیون خطی چندگانه اشاره می‌شود.

>>>> مشابه رگرسیون خطی، رگرسیون لجستیک نیز برای تخمین ارتباط بین یک متغیر وابسته و یک یا چند متغیر مستقل استفاده می‌شود، اما برای پیش‌بینی، متغیر طبقه‌ای (Categorical Variable) در مقایسه با یک متغیر پیوسته به کار می‌رود. یک متغیر طبقه‌ای می‌تواند درست یا غلط، بله یا خیر، 1 یا 0 و غیره باشد.

>>>> واحد اندازه‌گیری نیز در رگرسیون خطی با Logistic Regression متفاوت است. در رگرسیون خطی، واحد اندازه‌گیری نتیجه پیش‌بینی معمولا پیوسته است، مانند مقادیر عددی. اما در رگرسیون لجستیک، نتیجه پیش‌بینی به‌صورت احتمالی است و بین ۰ و ۱ قرار می‌گیرد. اما تابع لوجیت در رگرسیون لجستیک این منحنی احتمال را به خط راست تبدیل می‌کند، به‌این ترتیب نتیجه پیش‌بینی به‌صورت خطی قابل نمایش می‌شود.

>>>> با اینکه هر دو مدل در تحلیل رگرسیون برای پیش‌بینی نتایج آینده استفاده می‌شوند، رگرسیون خطی به طور عمومی قابل فهم‌تر است. همچنین نیاز به اندازه نمونه کمتری دارد، در حالی که رگرسیون لجستیک برای نمایش مقادیر در تمام دسته‌های پاسخ نیاز به نمونه‌ای مناسب دارد. بدون نمونه بزرگ و نماینده، ممکن است مدل قدرت آماری کافی برای تشخیص تأثیر معنی‌دار را نداشته باشد.

انواع رگرسیون لجستیک

3 نوع مدل رگرسیون لجستیک وجود دارد که براساس پاسخ طبقه‌ای تعریف می‌شوند.

رگرسیون لجستیک دودویی (Binary logistic regression)

در این روش، متغیر پاسخ یا وابسته ماهیت دوگانه دارد، به‌این معنی که تنها دو نتیجه ممکن برای آن وجود دارد (مانند ۰ و ۱). برخی مثال‌های معروف استفاده از این روش شامل پیش‌بینی اینکه یک ایمیل اسپم است یا نه، یا اینکه یک تومور بدخیم است یا نه، هستند.
در رگرسیون لجستیک، این روش بیشترین استفاده را دارد و به طور کلی، یکی از رایج‌ترین رده‌بندها برای طبقه‌بندی باینری است.

مثالی از رگرسیون لجستیک باینری

فرض کنید یک مجموعه داده داریم که شامل اطلاعاتی درباره دانش‌آموزان است، مانند نمرات آزمون (X) و وضعیت پذیرش (Y) که می‌تواند دو مقدار 0 (پذیرفته نشده) و 1 (پذیرفته شده) را داشته باشد. می‌خواهیم مدل رگرسیون لجستیک باینری بسازیم تا با توجه به نمرات آزمون، احتمال پذیرش را پیش‌بینی کنیم.
با استفاده از این مجموعه داده، می‌توانیم یک مدل رگرسیون لجستیک را با سازگاری آن با داده‌ها آموزش دهیم. مدل رابطه بین نمرات امتحانی و احتمال پذیرش را یاد خواهد گرفت. هنگامی که مدل آموزش دیده باشد، می‌توانیم از آن برای پیش‌بینی احتمال پذیرش برای دانش‌آموزان جدید بر اساس نمرات امتحانی آن‌ها استفاده کنیم.
برای نمونه، فرض کنید یک دانش‌آموز جدید با نمره آزمون 80 داریم. می‌توانیم این نمره را به عنوان ورودی به مدل رگرسیون لجستیک آموزش‌دیده بدهیم و این مدل احتمال پذیرش را خروجی خواهد داد. اگر احتمال پیش‌بینی شده بالاتر از یک آستانه خاص (مانند 0.5) باشد، می‌توانیم دانش‌آموز را به عنوان "پذیرفته شده" (1) دسته‌بندی کنیم و اگر کمتر از آستانه باشد، دانش‌آموز را به عنوان "پذیرفته نشده" (0) دسته‌بندی کنیم.
به‌این ترتیب، رگرسیون لجستیک دودویی به ما کمک می‌کند تا پیش‌بینی‌ها را انجام داده و نمونه‌های جدید را براساس رابطه بین متغیرهای ورودی (نمرات آزمون) و نتیجه دودویی (وضعیت پذیرش) به یکی از دو دسته تقسیم کنیم.

رگرسیون لجستیک ترتیبی

رگرسیون لجستیک ترتیبی (Ordinal logistic regression)

این نوع مدل در مواردی که متغیر پاسخ بیش از 3 نتیجه ممکن داشته باشد (برخلاف رگرسیون لجستیک دودویی که فقط دو دسته دارد)، مورد استفاده قرار می‌گیرد. با این حال، در این نوع مدل، مقادیر ممکن برای متغیر پاسخ دارای یک ترتیب معین هستند، به‌این معنی که دسته‌ها با یک ترتیب خاص قرار دارند و این ترتیب در تحلیل و تفسیر نتایج مدل بسیار مهم است.
مثلاً در مقیاس نمره A تا F، دسته A بهترین و دسته F بدترین نمره را نشان می‌دهد و در مقیاس امتیازدهی 1 تا 5، امتیاز 5 بهترین و امتیاز 1 بدترین امتیاز است. در این نوع رگرسیون، هدف پیش‌بینی احتمال وقوع هر یک از دسته‌های متغیر پاسخ بر اساس متغیرهای ورودی است.

رگرسیون لجستیک چندجمله‌ای (Multinomial logistic regression)

در این نوع مدل رگرسیون لجستیک، متغیر وابسته سه یا بیشتر نتیجه ممکن دارد؛ با این حال، این مقادیر ترتیب مشخصی ندارند. به عنوان مثال، استودیوهای سینمایی می‌خواهند پیش‌بینی کنند که یک بیننده سینما احتمالا چه ژانری از فیلم را تماشا خواهد کرد تا فیلم‌ها را به طرز مؤثرتری بازاریابی کنند.
مدل رگرسیون لجستیک چندجمله‌ای به استودیو کمک می‌کند تا قدرت تأثیر سن، جنسیت و وضعیت رابطه عاطفی یک فرد بر روی نوع فیلمی که او ترجیح می‌دهد را تعیین کند. سپس استودیو می‌تواند یک کمپین تبلیغاتی خاص برای یک فیلم خاص را به یک گروه افرادی که احتمالاً تماشای آن را دارند، هدایت کند.
یک مدل رگرسیون لجستیک چندجمله‌ای به استودیو کمک می‌کند تا قدرت تأثیر سن، جنسیت و وضعیت ازدواج یک شخص را بر روی نوع فیلمی که ترجیح می‌دهد، تعیین کند. سپس استودیو می‌تواند یک کمپین تبلیغاتی خاص برای یک فیلم به گروهی از افراد که احتمال دیدن آن را دارند، هدایت کند.
در این روش، رگرسیون لجستیک چندجمله‌ای به ما کمک می‌کند تا پیش‌بینی‌ها را انجام داده و نمونه‌ها را براساس تأثیر متغیرهای ورودی (مانند سن، جنسیت و وضعیت ازدواج) بر روی نتایج چندجمله‌ای (ژانر فیلم) دسته‌بندی کنیم.

رگرسیون لجستیک و یادگیری ماشین

در دنیای یادگیری ماشین، رگرسیون لجستیک به خانواده مدل‌های یادگیری ماشین نظارت‌شده تعلق دارد. این مدل به عنوان یک مدل تمییزدهنده شناخته می‌شود، به این معنا که سعی در تمییز دادن بین کلاس‌ها یا دسته‌ها دارد. برخلاف الگوریتم‌های تولیدی مانند بیز ساده (naïve bayes)، رگرسیون لجستیک نمی‌تواند اطلاعاتی را تولید کند و تصویری از دسته‌ای که قصد پیش‌بینی آن را دارد (مانند تصویر یک گربه) تولید نماید.

رگرسیون لجستیک و یادگیری ماشین

بیشینه کردن تابع درستنمایی

در اینجا، ما به توضیح می‌پردازیم که چگونه رگرسیون لجستیک برای تعیین ضرایب بتا مدل، تابع درستنمایی بر اساس لگاریتم را بیشینه می‌کند. این مسئله در زمینه‌ یادگیری ماشین تغییرات کوچکی می‌کند. در یادگیری ماشین، ما از تابع منفی لگاریتم درستنمایی به عنوان تابع اشتباه (loss function) استفاده می‌کنیم و با استفاده از فرآیند کاهش گرادیان، به دنبال یافتن مقدار بیشینه کلی می‌گردیم.
قبلا اشاره کردیم که چگونه رگرسیون لجستیک برای تعیین ضرایب بتا مدل، تابع درستنمایی برحسب لگاریتم (log likelihood function) را بیشینه می‌کند. این مسئله در زمینه‌ یادگیری ماشین تغییرات کوچکی می‌کند. در یادگیری ماشین، ما از تابع منفی لگاریتم درستنمایی به عنوان تابع اشتباه (loss function) استفاده می‌کنیم و با استفاده از فرآیند کاهش گرادیان، به دنبال یافتن مقدار بیشینه کلی (global maximum) می‌گردیم.

کنترل بیش‌برازش

رگرسیون لجستیک ممکن است در مواجهه با تعداد زیادی متغیر پیش‌بین درون مدل، به بیش‌برازش (overfitting) حساس باشد. برای مقابله با بیش‌برازش، از روش منظم‌سازی (regularization) استفاده می‌شود که در آن، ضرایب پارامترها (یا وزن‌ها) با استفاده از جریمه‌دهی مجازی کاهش می‌یابند. این جریمه‌دهی به ضرایب بزرگ، منجر به کاهش اهمیت آنها می‌شود و مدل را به سمت یافتن توزیع متوازن‌تری از پارامترهای کوچک‌تر هدایت می‌کند. این روش به مدل کمک می‌کند تا در مقابل بیش‌برازش مقاومت بیشتری داشته باشد و عملکرد بهتری روی داده‌های جدید ارائه دهد.

بیشتر بخوانید: مفهوم رگرسیون غیر خطی، کاربردها و استفاده از آن در پایتون

موارد استفاده از رگرسیون لجستیک

رگرسیون لجستیک به طور رایج برای مسائل پیش‌بینی و طبقه‌بندی استفاده می‌شود. برخی از این موارد استفاده عبارتند از:

تشخیص تقلب

این مدل‌ها به تیم‌ها کمک می‌کنند تا ناهنجاری‌های داده را که پیش‌بینی کننده تقلب هستند، شناسایی کنند. برخی از رفتارها یا ویژگی‌ها ممکن است با فعالیت‌های تقلبی ارتباط بیشتری داشته باشند و با استفاده از رگرسیون لجستیک، می‌توان این ارتباط را مدل‌سازی و تشخیص داده‌های تقلبی را بهبود بخشید. این بخش به‌ویژه برای بانک‌ها و مؤسسات مالی در حفاظت از مشتریان بسیار مفید است. همچنین، شرکت‌های مبتنی بر نرم‌افزار نیز از این روش‌ها استفاده کرده‌اند تا هنگام انجام تحلیل داده درباره عملکرد کسب‌وکار، حساب کاربری‌های جعلی را از مجموعه داده‌های خود حذف کنند و تحلیل‌های دقیق‌تری را ارائه دهند.

پیش‌بینی بیماری

در زمینه‌ پزشکی و بهداشت، استفاده از تجزیه و تحلیل داده برای پیش‌بینی احتمال بروز بیماری‌ها یا ناهنجاری‌های بهداشتی بسیار حیاتی است. با تحلیل داده‌های مربوط به یک جمعیت، می‌توان افرادی را که احتمال بیشتری برای بیماری‌های خاصی دارند، شناسایی کرده و برنامه‌های مراقبت پیشگیرانه برای آنها تدوین کرد. این کار به سازمان‌های بهداشتی و ارائه دهندگان مراقبت‌های بهداشتی امکان می‌دهد تا منابع خود را به بهترین شکل ممکن تخصیص دهند و بر اساس اطلاعات دقیق‌تر به افراد مشاوره و درمان مناسب را ارائه دهند.

پیش‌بینی ترک کردن

رفتارهای خاص ممکن است نمایانگر ترک‌کردن (یا از دست دادن) در اقسام مختلف یک سازمان باشند. به‌عنوان مثال، تیم‌های منابع انسانی و مدیریت ممکن است بخواهند بدانند آیا افراد با عملکرد بالا در شرکت هستند که در معرض خطر ترک کردن سازمان هستند؛ این نوع اطلاعات می‌تواند به برگزاری گفت‌وگوها برای درک نقاط ضعف در داخل شرکت، مانند فرهنگ یا حقوق و دستمزد، منجر شود.
در مقابل، تیم فروش ممکن است بخواهد بفهمد کدام یک از مشتریانشان در معرض خطر انتقال کسب و کار به جای دیگری هستند. این می‌تواند تیم‌ها را به تدوین استراتژی نگهداشت (Retention) مشتریان بی‌پایان ترغیب کند تا از از دست دادن درآمد جلوگیری کنند.
این اطلاعات ارزشمند به سازمان‌ها کمک می‌کند تا منابع و استراتژی‌های مناسبی را تخصیص دهند و از از دست دادن ارزش‌ها جلوگیری کنند.

خلاصه کلام

رگرسیون لجستیک یک ابزار قدرتمند در دسته‌بندی داده‌ها و پیش‌بینی احتمالات مربوط به کلاس‌های مختلف است و در علوم داده و یادگیری ماشینی از اهمیت بسیاری برخوردار است.
چه در زمینه رگرسیون لجستیک تازه کار باشید و چه به‌دنبال تعمیق درک خود هستید، این مقاله به‌عنوان راهنمای جامع عمل می‌کند و شما را به دانش و مهارت هایی مجهز می کند تا رگرسیون لجستیک را به‌طور موثر در پروژه های تجزیه و تحلیل داده‌های خود به‌کار ببرید.

نظرات

هیچ نظری وجود ندارد.

رگرسیون لجستیک: درک مبانی و کاربردها

دسترسی سریع

مفهوم رگرسیون لجستیک

رگرسیون خطی در مقابل رگرسیون لجستیک

انواع رگرسیون لجستیک

رگرسیون لجستیک دودویی (Binary logistic regression)

مثالی از رگرسیون لجستیک باینری

رگرسیون لجستیک ترتیبی (Ordinal logistic regression)

رگرسیون لجستیک چندجمله‌ای (Multinomial logistic regression)

رگرسیون لجستیک و یادگیری ماشین

بیشینه کردن تابع درستنمایی

کنترل بیش‌برازش

موارد استفاده از رگرسیون لجستیک

تشخیص تقلب

پیش‌بینی بیماری

پیش‌بینی ترک کردن

خلاصه کلام

نظرات

افزودن نظر

آخرین مقالات