رگرسیون خطی: از انواع ساده تا چند متغیره
دسترسی سریع
آیا تا کنون دغدغه این را داشتهاید که چگونه میتوانید از دادههای موجود برای پیشبینی نتایج آینده استفاده کنید؟ آیا بهدنبال ابزاری هستید که به شما در تصمیمگیریهای کسب و کاری دقیقتر و کارآمدتر کمک کند؟ اگر پاسختان بله است، مفهوم "رگرسیون خطی" ممکن است برایتان جذاب باشد. در این مقاله، ما قصد داریم به طور جامع درباره این تکنیک آماری بحث کنیم و نحوه استفاده از آن برای پیشبینی و تحلیل دادههای شما را به شما آموزش دهیم.
به تیم اعتماد کنید؛ جهت اطلاعات بیشتر با ما تماس بگیرید: 02191303096
مفهوم رگرسیون خطی
رگرسیون خطی (Linear Regression) الگوریتمی است که رابطه خطی بین یک متغیر مستقل و یک متغیر وابسته ارائه میدهد تا نتایج رویدادهای آینده را پیشبینی کند. این روش آماری در علم داده و یادگیری ماشین برای تحلیل پیشبینیها استفاده میشود.
متغیر مستقل همچنین متغیر پیشبینیکننده یا توضیحی است که بهدلیل تغییر در متغیرهای دیگر ثابت میماند. با وجود این، متغیر وابسته با نوسانات در متغیر مستقل تغییر میکند. مدل رگرسیون مقدار متغیر وابسته را که متغیر پاسخ یا متغیر نتیجهگیری مورد تجزیه و تحلیل یا مطالعه قرار میگیرد، پیشبینی میکند.
بهطور کلی، رگرسیون خطی الگوریتم یادگیری نظارتشده است که یک رابطه ریاضی بین متغیرها شبیهسازی میکند و برای پیشبینی مقادیر پیوسته یا عددی مانند فروش، حقوق، سن، قیمت محصول و غیره استفاده میشود.
وقتی حداقل دو متغیر در دادهها موجود باشند، استفاده از این روش تحلیلی مفید است. بهعنوان مثال، در پیشبینی بازار سهام، ممکن است بخواهیم بر اساس متغیرهایی مانند قیمت سهم در گذشته، حجم معاملات، رشد اقتصادی و غیره، قیمت سهم در آینده را پیشبینی کنیم. همچنین، در مدیریت پرتفوی سرمایه، میتوان از رگرسیون خطی برای پیشبینی عملکرد پرتفوی در آینده استفاده کرد. در تجزیه و تحلیل علمی نیز میتوان از رگرسیون خطی برای بررسی رابطه بین متغیرها و پیشبینی رخدادها استفاده کرد.
انواع مدلهای رگرسیون خطی
رگرسیون خطی، یکی از عوامل حیاتی در پشتیبانی بسیاری از برنامههای هوش مصنوعی و علوم داده است. این تکنیک آماری برای کسب و کارها بسیار مفید است، زیرا روشی ساده، قابل تفسیر و کارآمد برای ارزیابی روندها و انجام پیشبینیها و پیشبینی نتایج آینده است. انواع مدلهای رگرسیون خطی عبارتند از:
رگرسیون خطی ساده (Simple Linear Regression)
رگرسیون خطی ساده یک تکنیک آماری است که برای بررسی رابطه بین دو متغیر استفاده میشود. در رگرسیون خطی ساده، یک متغیر وابسته به کمک یک متغیر مستقل پیشبینی میشود. این پیشبینی با استفاده از خط ریاضی ساده بهنام "خط رگرسیون" صورت میگیرد. اصولا، هدف اصلی این تکنیک، پیدا کردن خطی است که بهترین تطابق را بین دادهها و خط ایجاد کند. در نتیجه، میتوان از این خط برای پیشبینی مقدار متغیر وابسته براساس مقدار متغیر مستقل استفاده کرد.
این روش به تجزیه و تحلیل روابط ساده بین دو متغیر و پیشبینی دقیق نتایج آینده بسیار مفید است و بهعنوان یکی از ابزارهای مهم در تجزیه و تحلیل دادهها و مدلسازی استفاده میشود.
مثالی برای رگرسیون خطی ساده
فرض کنید که دادههای ما شامل متراژ خانهها (متغیر مستقل) و قیمت آنها (متغیر وابسته) است.
با استفاده از رگرسیون خطی ساده، میتوانیم یک خط را بر روی نمودار متراژ و قیمت خانهها ترسیم کنیم. این خط با استفاده از دادههای موجود، به گونهای تنظیم میشود که فاصله عمودی بین نقاط داده و خط بر حداقل شود. سپس با استفاده از این خط، میتوانیم بهصورت تخمینی قیمت خانههای جدید را براساس متراژ آنها بدست آوریم. بهعنوان مثال، فرض کنید دادههای ما در جدول زیر نشان داده شده است:
متراژ (متغیر مستقل) | قیمت (متغیر وابسته) |
120 | 250.000 |
150 | 320.000 |
100 | 200.000 |
180 | 400.000 |
200 | 450.000 |
حال با استفاده از رگرسیون خطی، میتوانیم یک خط تنظیم کنیم که بهترین تطابق را با دادههای موجود داشته باشد. سپس با استفاده از این خط، میتوانیم برای مثال، قیمت یک خانه با متراژ 160 مترمربع را تخمین بزنیم.
این نمونه رگرسیون خطی ساده تنها یک مثال ساده است و در عمل، رگرسیون خطی میتواند با استفاده از بیشترین تعداد متغیرها و دادهها در مسائل پیچیدهتر نیز مورد استفاده قرار گیرد.
رگرسیون خطی چندگانه (Multiple Linear Regression)
رگرسیون خطی چند متغیره رابطهای بین متغیرهای مستقل (دو یا بیشتر) و متغیر وابسته مربوطه برقرار میکند. در این حالت، متغیرهای مستقل میتوانند به صورت پیوسته یا دستهای باشند. این نوع رگرسیون به پیشبینی روندها، تعیین مقادیر آینده و پیشبینی تأثیر تغییرات کمک میکند.
• رگرسیون خطی چندمتغیره از رگرسیون خطی ساده تفاوت دارد زیرا در آن، دو یا بیشتر از متغیرهای مستقل در نظر گرفته میشوند که میتوانند تأثیرات مختلفی بر متغیر وابسته داشته باشند. این نوع رگرسیون میتواند در مواردی که تعداد متغیرها و تأثیرات آنها پیچیدهتر است، مفید باشد.
• متغیرهای مستقل در رگرسیون خطی چندمتغیره ممکن است پیوسته (مثل سن یک فرد) یا دستهای (مثل نوع ماشین) باشند. این امکان را فراهم میکند که تأثیر متغیرهای مستقل پیشبینی و تجزیه و تحلیل شود.
• با استفاده از رگرسیون خطی چندمتغیره، میتوان پیشبینی کرد که چگونه تغییرات در متغیرهای مستقل تأثیری بر متغیر وابسته خواهند داشت و چگونه میتوانند روندها و مقادیر آینده را تعیین کنند. این تکنیک معمولاً در تحقیقات علوم اجتماعی، اقتصاد، علوم طبیعی و دیگر حوزههای تحقیقاتی به عنوان یک ابزار مفید برای مدلسازی و تجزیه و تحلیل دادهها مورد استفاده قرار میگیرد.
مثالی از رگرسیون خطی چندمتغیره
فرض کنید که یک شرکت تولیدی میخواهد رابطهای بین 3 متغیر مستقل (تعداد کارگران، میزان مصرف مواد اولیه و ساعت کاری) و میزان تولید (متغیر وابسته) را برای بهبود بهرهوری تولید مشخص کند.
شرکت اطلاعات زیر را جمعآوری میکند:
1. تعداد کارگران: 20 نفر
2. میزان مصرف مواد اولیه (کیلوگرم): 500 کیلوگرم
3. ساعت کاری (ساعت): 40 ساعت
با استفاده از رگرسیون خطی چندمتغیره، میتوانیم مدلی بسازیم که میزان تولید را به عنوان یک تابع از تعداد کارگران، مصرف مواد اولیه و ساعت کاری تخمین زند. مدل رگرسیون ممکن است به صورت زیر نمایان شود:
در اینجا:
• "تولید" نمایانگر متغیر وابسته (میزان تولید) است.
• "تعداد کارگران"، "مصرف مواد اولیه" و "ساعت کاری" متغیرهای مستقل هستند.
• β₀، β₁، β₂، و β₃ ضرایب رگرسیون هستند که نشاندهنده تأثیر هر متغیر مستقل بر متغیر وابسته هستند.
• ε نمایانگر خطای تخمین است که ممکن است در پیشبینی دقیق مقدار تولید دخیل باشد.
با تحلیل این مدل رگرسیون، میتوانیم بفهمیم که چگونه تعداد کارگران، مصرف مواد اولیه و ساعت کاری تأثیری بر میزان تولید دارند و با استفاده از مدل، میتوانیم تولید آینده را براساس مقادیر مختلف این متغیرها پیشبینی کنیم.
رگرسیون خطی در پایتون
در پایتون، میتوانید از کتابخانههای مختلفی برای انجام رگرسیون خطی استفاده کنید، از جمله کتابخانههای scikit-learn و Statsmodels. در ادامه، مثالی ساده از استفاده از scikit-learn برای انجام رگرسیون خطی در پایتون آورده شده است:
نصب و وارد کردن کتابخانه scikit-learn:
1- برای نصب scikit-learn، میتوانید از دستور زیر استفاده کنید:
سپس کتابخانه را وارد کنید:
2- تعریف متغیرهای مستقل و وابسته
برای مثال، متغیرهای مستقل (X) و وابسته (Y) را تعریف کنید. این متغیرها باید به صورت آرایههای نامپای (NumPy) یا پانداس (Pandas) باشند.
3- ایجاد یک مدل رگرسیون خطی
از کلاس LinearRegression در scikit-learn برای ایجاد مدل رگرسیون خطی استفاده کنید.
4- تلفیق دادهها و مدل
دادههای مستقل و وابسته را با استفاده از متد fit به مدل تلفیق کنید:
5- پیشبینی مقادیر
حالا که مدل ساخته شده، میتوانید با استفاده از متد predict مقادیر وابسته جدید را پیشبینی کنید:
6- تحلیل نتایج
میتوانید نتایج پیشبینی را بررسی کنید و تحلیلهای مختلفی از مدل خود انجام دهید.
این توضیحات به شما کمک میکنند تا رگرسیون خطی در پایتون با استفاده از کتابخانه scikit-learn را متوجه شوید. البته، برای موارد پیچیدهتر و تجزیه و تحلیل دقیقتر، میتوانید به مطالب و منابع دقیقتر مراجعه کنید و مدلسازی رگرسیون خطی را تا حد بالاتری ارتقاء دهید.
معایب و مزایای رگرسیون خطی
مدلهای رگرسیون خطی بهسادگی قابل فهم هستند و برای مجموعهدادههای کوچک که پیچیدگی زیادی ندارند، مفید هستند. در مجموعهدادههای کوچک، میتوان آنها را بهصورت دستی محاسبه کرد. رگرسیون خطی ساده برای پیدا کردن رابطه بین دو متغیر پیوسته مفید است. فرمول یک رابطه آماری را نشان میدهد، اما رابطه قطعی نیست.
به این معنی که فرمول رگرسیون خطی یک رابطه آماری را نشان میدهد، یعنی نشان میدهد چگونه دو متغیر با یکدیگر مرتبط هستند. اما در این رابطه، علت و معلولی در معنای قطعی وجود ندارد، یعنی نمیتوان نتیجه گرفت که وجود یک متغیر باعث وقوع یک عامل دیگر شده باشد. بهعبارت دیگر، رگرسیون خطی نمیتواند ارتباط علتی بین متغیرها را تعیین کند، فقط میتواند نشان دهد که آنها با یکدیگر چقدر همبستگی دارند.
برای مثال، بین ساعتهای مطالعه و نمرات آزمون، همبستگی قوی وجود دارد. اما نمیتواند توضیح دهد چرا دانشآموزان ممکن است مقدار خاصی را مطالعه کنند و چرا یک نتیجه خاصی رخ میدهد.
معایب رگرسیون خطی
همچنین مدلهای رگرسیون خطی معایبی نیز دارند. آنها با مجموعهدادههای پیچیده به خوبی کار نمیکنند و برای دادههای غیرخطی، طراحی مناسب دشوار است. بههمین دلیل، دانشمندان داده توصیه میکنند که با تحلیل اکتشافی دادهها شروع کنند تا توزیع خطی در دادهها را بررسی کنند. اگر توزیع خطی آشکاری در نمودار وجود نداشته باشد، باید از روشهای دیگر استفاده شود.
خلاصه کلام
رگرسیون خطی به عنوان یکی از قدرتمندترین و پرکاربردترین روشهای تحلیل پیشبینی و تفسیر دادهها در علوم آماری و مهندسی، ارزش بسیاری دارد. با استفاده از روشهای رگرسیون خطی ساده و چند متغیره، میتوانید روابط پیچیدهتر را در دادهها رصد کنید و پیشبینیهای دقیقتری انجام دهید.
نظرات
هیچ نظری وجود ندارد.
افزودن نظر
مشاهده نقشه سایت
Copyright © 2017 - 2023 Khavarzadeh®. All rights reserved