前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >米哈游,算法岗稳了 !!

米哈游,算法岗稳了 !!

作者头像
Python编程爱好者
发布2024-07-12 13:34:41
900
发布2024-07-12 13:34:41
举报
文章被收录于专栏:Python编程爱好者

Hi,我是Johngo~

最近有一位同学,面试了米哈游,口头offer已到,基本是比较稳了。

由于是刚刚毕业一年,所以都是比较基础的问题,就是有一个问题,掰扯了比较长的时间:如何评估线性回归模型的性能和准确度?

所以,咱们今天就用这个问题,和大家一起分享分享,大家可以评论区一起交流~

首先,大家都知道,线性回归是一种常用的预测模型,用于预测一个连续因变量和一个或多个自变量之间的关系。

那么,最后评估线性回归模型的性能和准确度非常重要,可以帮助我们判断模型是否有效并进行改进。

接下来,和大家分享如何评估线性回归模型的性能和准确度。

1. 均方误差(MSE)

原理

均方误差(Mean Squared Error, MSE)衡量的是预测值与真实值之间的平均平方差异。MSE越小,模型的预测精度越高。由于平方误差将偏差放大,因此MSE对异常值(Outliers)比较敏感。

公式

其中:

  • 是第 个样本的真实值。
  • 是第 个样本的预测值。
  • 是样本总数。

Python实现

代码语言:javascript
复制
from sklearn.metrics import mean_squared_error

# y_true 是真实值数组,y_pred 是预测值数组
mse = mean_squared_error(y_true, y_pred)
print("Mean Squared Error (MSE):", mse)

2. 均方根误差(RMSE)

原理

均方根误差(Root Mean Squared Error, RMSE)是MSE的平方根,具有与原数据相同的量纲(单位),因此更容易解释。它同样对异常值敏感。

公式

Python实现

代码语言:javascript
复制
import numpy as np

rmse = np.sqrt(mean_squared_error(y_true, y_pred))
print("Root Mean Squared Error (RMSE):", rmse)

3. 平均绝对误差(MAE)

原理

平均绝对误差(Mean Absolute Error, MAE)衡量的是预测值与真实值之间的平均绝对差异。相比MSE和RMSE,MAE对异常值不那么敏感。

公式

Python实现

代码语言:javascript
复制
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true, y_pred)
print("Mean Absolute Error (MAE):", mae)

4. 决定系数(R²)

原理

决定系数(R²)衡量的是模型解释数据变异的比例。其取值范围在0到1之间,值越接近1,模型解释能力越强。如果R²为0,表示模型没有解释任何数据变异;如果R²为1,表示模型完美地解释了数据变异。

公式

其中:

  • 是真实值的平均值。

Python实现

代码语言:javascript
复制
from sklearn.metrics import r2_score

r2 = r2_score(y_true, y_pred)
print("R² (Coefficient of Determination):", r2)

一个小小案例

我们使用一个示例数据集,详细演示如何评估线性回归模型,并通过图像展示评估结果。

示例数据生成与模型训练

代码语言:javascript
复制
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(1000, 1)
y = 4 + 3 * X + np.random.randn(1000, 1)

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

1. 真实值与预测值的散点图

我们可以通过散点图比较真实值与预测值,直观展示模型的预测效果。

代码语言:javascript
复制
plt.scatter(X_test, y_test, color='black', label='Actual Values')
plt.scatter(X_test, y_test_pred, color='blue', label='Predicted Values')
plt.plot(X_test, y_test_pred, color='red', linewidth=2, label='Regression Line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Actual vs Predicted Values')
plt.legend()
plt.show()

2. 预测误差的分布图

预测误差(真实值与预测值的差异)的分布图可以帮助我们了解模型误差的分布情况。

代码语言:javascript
复制
errors = y_test - y_test_pred

plt.hist(errors, bins=20, edgecolor='black')
plt.xlabel('Prediction Error')
plt.ylabel('Frequency')
plt.title('Distribution of Prediction Errors')
plt.show()

3. 学习曲线

学习曲线展示了训练误差和验证误差随训练集大小的变化情况,有助于我们诊断模型是否存在欠拟合或过拟合问题。

代码语言:javascript
复制
from sklearn.model_selection import learning_curve

train_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=5, scoring='neg_mean_squared_error')

train_scores_mean = -train_scores.mean(axis=1)
test_scores_mean = -test_scores.mean(axis=1)

plt.plot(train_sizes, train_scores_mean, label='Training error')
plt.plot(train_sizes, test_scores_mean, label='Validation error')
plt.ylabel('MSE')
plt.xlabel('Training set size')
plt.title('Learning Curves')
plt.legend()
plt.show()

以上是详细介绍如何评估线性回归模型的性能和准确度,包括各个评估指标的原理、公式推导以及在Python中的实现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Johngo学长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 均方误差(MSE)
  • 2. 均方根误差(RMSE)
  • 3. 平均绝对误差(MAE)
  • 4. 决定系数(R²)
  • 一个小小案例
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档