رگرسیون خطی: از انواع ساده تا چند متغیره

1402/07/11

دسترسی سریع


آیا تا کنون دغدغه این را داشته‌اید که چگونه می‌توانید از داده‌های موجود برای پیش‌بینی نتایج آینده استفاده کنید؟ آیا به‌دنبال ابزاری هستید که به شما در تصمیم‌گیری‌های کسب و کاری دقیق‌تر و کارآمدتر کمک کند؟ اگر پاسخ‌تان بله است، مفهوم "رگرسیون خطی" ممکن است برایتان جذاب باشد. در این مقاله، ما قصد داریم به طور جامع درباره این تکنیک آماری بحث کنیم و نحوه استفاده از آن برای پیش‌بینی و تحلیل داده‌های شما را به شما آموزش دهیم.

در صورتی که در پروژه‌ای به‌دنبال تحلیل داده‌ها و استفاده از رگرسیون خطی هستید، شرکت ما را به‌عنوان یک نمونه‌ معتبر انتخاب کنید.
به تیم اعتماد کنید؛ جهت اطلاعات بیشتر با ما تماس بگیرید: 02191303096

 

مفهوم رگرسیون خطی

رگرسیون خطی (Linear Regression) الگوریتمی است که رابطه خطی بین یک متغیر مستقل و یک متغیر وابسته ارائه می‌دهد تا نتایج رویدادهای آینده را پیش‌بینی کند. این روش آماری در علم داده و یادگیری ماشین برای تحلیل پیش‌بینی‌ها استفاده می‌شود.
متغیر مستقل همچنین متغیر پیش‌بینی‌کننده یا توضیحی است که به‌دلیل تغییر در متغیرهای دیگر ثابت می‌ماند. با وجود این، متغیر وابسته با نوسانات در متغیر مستقل تغییر می‌کند. مدل رگرسیون مقدار متغیر وابسته را که متغیر پاسخ یا متغیر نتیجه‌گیری مورد تجزیه و تحلیل یا مطالعه قرار می‌گیرد، پیش‌بینی می‌کند.
به‌طور کلی، رگرسیون خطی الگوریتم یادگیری نظارت‌شده است که یک رابطه ریاضی بین متغیرها شبیه‌سازی می‌کند و برای پیش‌بینی مقادیر پیوسته یا عددی مانند فروش، حقوق، سن، قیمت محصول و غیره استفاده می‌شود.
وقتی حداقل دو متغیر در داده‌ها موجود باشند، استفاده از این روش تحلیلی مفید است. به‌عنوان مثال، در پیش‌بینی بازار سهام، ممکن است بخواهیم بر اساس متغیرهایی مانند قیمت سهم در گذشته، حجم معاملات، رشد اقتصادی و غیره، قیمت سهم در آینده را پیش‌بینی کنیم. همچنین، در مدیریت پرتفوی سرمایه، می‌توان از رگرسیون خطی برای پیش‌بینی عملکرد پرتفوی در آینده استفاده کرد. در تجزیه و تحلیل علمی نیز می‌توان از رگرسیون خطی برای بررسی رابطه بین متغیرها و پیش‌بینی رخدادها استفاده کرد.

انواع مدل‌های رگرسیون خطی

رگرسیون خطی، یکی از عوامل حیاتی در پشتیبانی بسیاری از برنامه‌های هوش مصنوعی و علوم داده است. این تکنیک آماری برای کسب و کارها بسیار مفید است، زیرا روشی ساده، قابل تفسیر و کارآمد برای ارزیابی روندها و انجام پیش‌بینی‌ها و پیش‌بینی نتایج آینده است. انواع مدل‌های رگرسیون خطی عبارتند از:

رگرسیون خطی ساده (Simple Linear Regression)

رگرسیون خطی ساده یک تکنیک آماری است که برای بررسی رابطه بین دو متغیر استفاده می‌شود. در رگرسیون خطی ساده، یک متغیر وابسته به کمک یک متغیر مستقل پیش‌بینی می‌شود. این پیش‌بینی با استفاده از خط ریاضی ساده به‌نام "خط رگرسیون" صورت می‌گیرد. اصولا، هدف اصلی این تکنیک، پیدا کردن خطی است که بهترین تطابق را بین داده‌ها و خط ایجاد کند. در نتیجه، می‌توان از این خط برای پیش‌بینی مقدار متغیر وابسته براساس مقدار متغیر مستقل استفاده کرد.
این روش به تجزیه و تحلیل روابط ساده بین دو متغیر و پیش‌بینی دقیق نتایج آینده بسیار مفید است و به‌عنوان یکی از ابزارهای مهم در تجزیه و تحلیل داده‌ها و مدل‌سازی استفاده می‌شود.

مثالی برای رگرسیون خطی ساده

فرض کنید که داده‌های ما شامل متراژ خانه‌ها (متغیر مستقل) و قیمت آنها (متغیر وابسته) است.
با استفاده از رگرسیون خطی ساده، می‌توانیم یک خط را بر روی نمودار متراژ و قیمت خانه‌ها ترسیم کنیم. این خط با استفاده از داده‌های موجود، به گونه‌ای تنظیم می‌شود که فاصله عمودی بین نقاط داده و خط بر حداقل شود. سپس با استفاده از این خط، می‌توانیم به‌صورت تخمینی قیمت خانه‌های جدید را براساس متراژ آنها بدست آوریم. به‌عنوان مثال، فرض کنید داده‌های ما در جدول زیر نشان داده شده است:

متراژ (متغیر مستقل)     قیمت (متغیر وابسته)
120 250.000
150 320.000
100 200.000
180 400.000
200 450.000


حال با استفاده از رگرسیون خطی، می‌توانیم یک خط تنظیم کنیم که بهترین تطابق را با داده‌های موجود داشته باشد. سپس با استفاده از این خط، می‌توانیم برای مثال، قیمت یک خانه با متراژ 160 مترمربع را تخمین بزنیم.
این نمونه رگرسیون خطی ساده تنها یک مثال ساده است و در عمل، رگرسیون خطی می‌تواند با استفاده از بیشترین تعداد متغیرها و داده‌ها در مسائل پیچیده‌تر نیز مورد استفاده قرار گیرد.

بیشتر بخوانید: رگرسیون لجستیک (Logistic Regression)؛ درک مبانی و کاربردها

 

رگرسیون خطی چندگانه (Multiple Linear Regression)

رگرسیون خطی چند متغیره رابطه‌ای بین متغیرهای مستقل (دو یا بیشتر) و متغیر وابسته مربوطه برقرار می‌کند. در این حالت، متغیرهای مستقل می‌توانند به صورت پیوسته یا دسته‌ای باشند. این نوع رگرسیون به پیش‌بینی روندها، تعیین مقادیر آینده و پیش‌بینی تأثیر تغییرات کمک می‌کند.
•    رگرسیون خطی چندمتغیره از رگرسیون خطی ساده تفاوت دارد زیرا در آن، دو یا بیشتر از متغیرهای مستقل در نظر گرفته می‌شوند که می‌توانند تأثیرات مختلفی بر متغیر وابسته داشته باشند. این نوع رگرسیون می‌تواند در مواردی که تعداد متغیرها و تأثیرات آنها پیچیده‌تر است، مفید باشد.
•    متغیرهای مستقل در رگرسیون خطی چندمتغیره ممکن است پیوسته (مثل سن یک فرد) یا دسته‌ای (مثل نوع ماشین) باشند. این امکان را فراهم می‌کند که تأثیر متغیرهای مستقل پیش‌بینی و تجزیه و تحلیل شود.
•    با استفاده از رگرسیون خطی چندمتغیره، می‌توان پیش‌بینی کرد که چگونه تغییرات در متغیرهای مستقل تأثیری بر متغیر وابسته خواهند داشت و چگونه می‌توانند روندها و مقادیر آینده را تعیین کنند. این تکنیک معمولاً در تحقیقات علوم اجتماعی، اقتصاد، علوم طبیعی و دیگر حوزه‌های تحقیقاتی به عنوان یک ابزار مفید برای مدل‌سازی و تجزیه و تحلیل داده‌ها مورد استفاده قرار می‌گیرد.

مثالی از رگرسیون خطی چندمتغیره

فرض کنید که یک شرکت تولیدی می‌خواهد رابطه‌ای بین 3 متغیر مستقل (تعداد کارگران، میزان مصرف مواد اولیه و ساعت کاری) و میزان تولید (متغیر وابسته) را برای بهبود بهره‌وری تولید مشخص کند.
شرکت اطلاعات زیر را جمع‌آوری می‌کند:
1.    تعداد کارگران: 20 نفر
2.    میزان مصرف مواد اولیه (کیلوگرم): 500 کیلوگرم
3.    ساعت کاری (ساعت): 40 ساعت
با استفاده از رگرسیون خطی چندمتغیره، می‌توانیم مدلی بسازیم که میزان تولید را به عنوان یک تابع از تعداد کارگران، مصرف مواد اولیه و ساعت کاری تخمین زند. مدل رگرسیون ممکن است به صورت زیر نمایان شود:

رگرسیون خطی چند متغیره

 

در اینجا:
•    "تولید" نمایانگر متغیر وابسته (میزان تولید) است.
•    "تعداد کارگران"، "مصرف مواد اولیه" و "ساعت کاری" متغیرهای مستقل هستند.
•    β₀، β₁، β₂، و β₃ ضرایب رگرسیون هستند که نشان‌دهنده تأثیر هر متغیر مستقل بر متغیر وابسته هستند.
•    ε  نمایانگر خطای تخمین است که ممکن است در پیش‌بینی دقیق مقدار تولید دخیل باشد.
با تحلیل این مدل رگرسیون، می‌توانیم بفهمیم که چگونه تعداد کارگران، مصرف مواد اولیه و ساعت کاری تأثیری بر میزان تولید دارند و با استفاده از مدل، می‌توانیم تولید آینده را براساس مقادیر مختلف این متغیرها پیش‌بینی کنیم.

رگرسیون خطی در پایتون

در پایتون، می‌توانید از کتابخانه‌های مختلفی برای انجام رگرسیون خطی استفاده کنید، از جمله کتابخانه‌های scikit-learn و Statsmodels. در ادامه، مثالی ساده از استفاده از scikit-learn برای انجام رگرسیون خطی در پایتون آورده شده است:
نصب و وارد کردن کتابخانه scikit-learn:
1- برای نصب scikit-learn، می‌توانید از دستور زیر استفاده کنید:
سپس کتابخانه را وارد کنید:


2- تعریف متغیرهای مستقل و وابسته
برای مثال، متغیرهای مستقل (X) و وابسته (Y) را تعریف کنید. این متغیرها باید به صورت آرایه‌های نامپای (NumPy) یا پانداس (Pandas)  باشند.


3- ایجاد یک مدل رگرسیون خطی
از کلاس LinearRegression  در scikit-learn برای ایجاد مدل رگرسیون خطی استفاده کنید.


4- تلفیق داده‌ها و مدل
داده‌های مستقل و وابسته را با استفاده از متد fit به مدل تلفیق کنید:


5- پیش‌بینی مقادیر
حالا که مدل ساخته شده، می‌توانید با استفاده از متد predict  مقادیر وابسته جدید را پیش‌بینی کنید:


6- تحلیل نتایج
می‌توانید نتایج پیش‌بینی را بررسی کنید و تحلیل‌های مختلفی از مدل خود انجام دهید.

این توضیحات به شما کمک می‌کنند تا رگرسیون خطی در پایتون با استفاده از کتابخانه scikit-learn را متوجه شوید. البته، برای موارد پیچیده‌تر و تجزیه و تحلیل دقیق‌تر، می‌توانید به مطالب و منابع دقیق‌تر مراجعه کنید و مدل‌سازی رگرسیون خطی را تا حد بالاتری ارتقاء دهید.

بیشتر بخوانید: تفاوت بین رگرسیون خطی و رگرسیون غیرخطی چیست؟

 

معایب و مزایای رگرسیون خطی

مدل‌های رگرسیون خطی به‌سادگی قابل فهم هستند و برای مجموعه‌داده‌های کوچک که پیچیدگی زیادی ندارند، مفید هستند. در مجموعه‌داده‌های کوچک، می‌توان آنها را به‌صورت دستی محاسبه کرد. رگرسیون خطی ساده برای پیدا کردن رابطه بین دو متغیر پیوسته مفید است. فرمول یک رابطه آماری را نشان می‌دهد، اما رابطه قطعی نیست. 
به این معنی که فرمول رگرسیون خطی یک رابطه آماری را نشان می‌دهد، یعنی نشان می‌دهد چگونه دو متغیر با یکدیگر مرتبط هستند. اما در این رابطه، علت و معلولی در معنای قطعی وجود ندارد، یعنی نمی‌توان نتیجه گرفت که وجود یک متغیر باعث وقوع یک عامل دیگر شده باشد. به‌عبارت دیگر، رگرسیون خطی نمی‌تواند ارتباط علتی بین متغیرها را تعیین کند، فقط می‌تواند نشان دهد که آنها با یکدیگر چقدر همبستگی دارند.
برای مثال، بین ساعت‌های مطالعه و نمرات آزمون، همبستگی قوی وجود دارد. اما نمی‌تواند توضیح دهد چرا دانش‌آموزان ممکن است مقدار خاصی را مطالعه کنند و چرا یک نتیجه خاصی رخ می‌دهد.

معایب رگرسیون خطی

همچنین مدل‌های رگرسیون خطی معایبی نیز دارند. آنها با مجموعه‌داده‌های پیچیده به خوبی کار نمی‌کنند و برای داده‌های غیرخطی، طراحی مناسب دشوار است. به‌همین دلیل، دانشمندان داده توصیه می‌کنند که با تحلیل اکتشافی داده‌ها شروع کنند تا توزیع خطی در داده‌ها را بررسی کنند. اگر توزیع خطی آشکاری در نمودار وجود نداشته باشد، باید از روش‌های دیگر استفاده شود.

خلاصه کلام

رگرسیون خطی به عنوان یکی از قدرتمندترین و پرکاربردترین روش‌های تحلیل پیش‌بینی و تفسیر داده‌ها در علوم آماری و مهندسی، ارزش بسیاری دارد. با استفاده از روش‌های رگرسیون خطی ساده و چند متغیره، می‌توانید روابط پیچیده‌تر را در داده‌ها رصد کنید و پیش‌بینی‌های دقیق‌تری انجام دهید.

نظرات

هیچ نظری وجود ندارد.


افزودن نظر

مشاهده نقشه سایت
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved