رگرسیون ریج

رگرسیون ریج (به انگلیسی: Ridge regression) یکی از نسخه‌های رگرسیون خطی است که در مسائلی با متغیرهای مستقل دارای همبستگی بالا برای تخمین ضرایب استفاده می‌شود و مشکل هم‌خطی چندگانه را کاهش می‌دهد. ریج، همچنین یکی از روش‌های تنظیم مدل است که از بیش‌برازش در رگرسیون جلوگیری می‌کند. در این روش، نُرمِ $L_{2}$ ضرایب به تابع هزینه مجموع مربعات خطا^[الف] حین فرایند آموزش مدل، افزوده می‌شود. با این کار وزن‌های مدل تا حد امکان کوچک نگه داشته می‌شوند.^[۱]

تعریف ریاضی

فرض کنید در مسئله رگرسیون، مجموعه داده‌ها شامل $N$ جفت متغیر پیشگو و متغیر پاسخ به صورت $D=\{({x_{1}},y_{1}),\cdots ,({x_{N}},y_{N})\}$ باشد. هدف بدست آوردن $y$ به عنوان ترکیبی خطی از $x$ است یعنی ${\displaystyle x^{T}\beta +\beta _{0}}$ . رگرسیون خطی معمولی به شکل زیر در پی یافتن و بهینه است به طوری که مجموع مربعات خطا را کمینه کند:

$\min _{\beta _{0},\beta }\left\{\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}$

در رگرسیون ریج ضریبی از نُرمِ $L_{2}$ به تابع هزینه اضافه می‌شود:

$\min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|Y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{2}^{2}\right\}$

پارامتر $\lambda$ میزان جریمه روی نُرمِ $L_{2}$ را مشخص می‌کند. اضافه کردن ضریبی از نُرمِ $L_{2}$ به تابع هزینه معادلِ ایجاد محدودیتی بر روی نُرمِ $L^{2}$ است:

$\min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|Y-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{2}^{2}\leq t^{2}$

که منظور از $\|v\|_{p}$ در واقع، نُرمِ $\ell ^{p}$ است که به صورت زیر محاسبه می‌شود:

\|v\|_{p}=\left(\sum _{i=1}^{N}|v_{i}|^{p}\right)^{1/p}

بنابراین، رگرسیون ریج محدودیت‌های بیشتری را روی ضرایب مدل اعمال می‌کند. چراکه در این روش افزون بر تلاش برای کمینه کردن میانگین خطای مربعات خطاها، جریمه‌ای^[ب] روی ضرایب هم در نظر گرفته می‌شود. در نتیجه ترجیح بر انتخاب ضرایبی با اندازهٔ کوچک یا نزدیک به صفر است تا جملهٔ جدید افزوده شده به تابع هزینه نیز کوچک شود^[۲]

فرم بستهٔ جواب

برای به دست آوردن فرم بستهٔ جواب به فرم ماتریسی تابع هزینه را توجه کنید:

$(Y-X\beta )^{T}(Y-X\beta )+\lambda \beta ^{T}\beta$

کافیست نسبت به $\beta$ مشتق بگیریم:

$X^{T}Y=\left(X^{T}X+\lambda I\right)\beta$

در نتیجه:

${\hat {\beta _{R}}}=(X^{T}X+\lambda I)^{-1}X^{T}y$

مصورسازی

برای مصورسازی روش رگرسیوت ریح توجه کنید که جمع خطای مربعات، به شکل خطوط تراز بیضوی نمایش داده می‌شود. به علاوه در مسألهٔ رگرسیون ریج، ناحیه‌ای که ضرایب مدل را مشخص می‌کند از رابطه زیر به دست می‌آید:

$\beta _{1}^{2}+\beta _{2}^{2}\leq t^{2}$

که در صفحهٔ مختصات دو بعدی، دایره‌ای به شعاع را نمایش می‌دهد.^[۳] تصویر برخورد خطوط تراز با محدوده ضرایب در رگرسیون ریج در تصویر زیر نمایش داده شده‌است:

در شکل نشان داده شده بیضی‌های مربوط به خطوط تراز داخلی جمع خطای مربعات کمتری دارند. و در نقطهٔ میانی مشخص‌شده، خطای میانگین مربعات کمینه می‌شود. در مدل ریج، تلاش می‌شود اندازهٔ دایره و بیضی همزمان کوچک شوند. در واقع یک بده‌بستان^[پ] میان دو جملهٔ تابع هزینه وجود دارد. پاسخ مسألهٔ رگرسیون ریج در نقطه‌ای است که خطوط تراز بیضوی با محدودهٔ دایره‌ای شکل ضرایب برخورد می‌کند.^[۲]

پیاده‌سازی (پایتون)

با استفاده از کتابخانهٔ Sickit-Learn زبان برنامه‌نویسی پایتون می‌توان رگرسیون ریج را به سادگی، به صورت زیر پیاده‌سازی کرد:

from sklearn.linear_model import Ridge

ridge = Ridge(alpha=0.1)
ridge.fit(X_train, y_train)
prediction= lasso.predict(X_test)

پارامتر تنظیم مدل در این مثال ساده برابر با $0.1$ در نظر گرفته شده و پس از آموزش، از مدل برای پیش‌بینی روی دادهٔ جدید استفاده شده‌است.

یادداشت‌ها

↑ residual sum of squares (RSS)
↑ penalty
↑ trade-off

منابع

↑ Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly Media. (به انگلیسی).
↑ ^۲٫۰ ^۲٫۱ «5.1 - Ridge Regression | STAT 897D». online.stat.psu.edu. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ Hastie, T. , Tibshirani, R. , & Wainwright, M. (2020). Statistical Learning with Sparsity (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) (1st ed.). Routledge. (به انگلیسی).

[1] residual sum of squares (RSS)

[3] ty

[6] trade-off

[2] Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly Media. (به انگلیسی).

[:0-4] ۲٫۰ ^۲٫۱ «5.1 - Ridge Regression | STAT 897D». online.stat.psu.edu. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[5] Hastie, T. , Tibshirani, R. , & Wainwright, M. (2020). Statistical Learning with Sparsity (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) (1st ed.). Routledge. (به انگلیسی).

[الف]

[۱]

[ب]

[۲]

[۳]

[پ]