首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
4.1 分类变量
4.1.1 One-Hot 编码(虚拟变量)
4.1.2 数字可以编码分类变量
4.2 分箱、离散化、线性模型与树
4.3 交互特征与多项式特征
4.4 单变量非线性变换
4.5 自动化特征选择
4.5.1 单变量统计
4.5.2 基于模型的特征选择
4.5.3 迭代特征选择
4.6 利用专家知识
5.1 交叉验证
5.1.1 scikit-learn 中的交叉验证
5.1.2 交叉验证的优点
5.1.3 分层k 折交叉验证和其他策略
5.2 网格搜索
5.2.1 简单网格搜索
5.2.2 参数过拟合的风险与验证集
5.2.3 带交叉验证的网格搜索
5.3 评估指标与评分
5.3.1 牢记目标
5.3.2 二分类指标
5.3.3 多分类指标
5.3.4 回归指标
5.3.5 在模型选择中使用评估指标
6.1 用预处理进行参数选择
6.2 构建管道
6.3 在网格搜索中使用管道
6.4 通用的管道接口
6.4.1 用make_pipeline 方便地创建管道
6.4.2 访问步骤属性
6.4.3 访问网格搜索管道中的属性
6.5 网格搜索预处理步骤与模型参数
6.6 网格搜索选择使用哪个模型
7.1 用字符串表示的数据类型
7.2 示例应用:电影评论的情感分析
7.3 将文本数据表示为词袋
7.3.1 将词袋应用于玩具数据集
7.3.2 将词袋应用于电影评论
7.4 停用词
7.5 用tf-idf 缩放数据
7.6 研究模型系数
7.7 多个单词的词袋(n元分词)
7.8 分词、词干提取与词形还原
7.9 主题建模与文档聚类
8.1 处理机器学习问题
8.2 从原型到生产
8.3 测试生产系统
8.4 构建你自己的估计器
8.5 下一步怎么走
8.5.1 理论
8.5.2 其他机器学习框架和包
8.5.3 排序、推荐系统与其他学习类型
8.5.4 概率建模、推断与概率编程
8.5.5 神经网络
8.5.6 推广到更大的数据集
当前位置:
首页>>
技术小册>>
Python机器学习基础教程(下)
小册名称:Python机器学习基础教程(下)
### 5.3.4 回归指标 在机器学习的广阔领域中,回归模型是一种预测数值型输出(即连续值而非分类标签)的强大工具。为了评估回归模型的表现,我们需要一系列量化的指标来衡量其预测性能。这些指标不仅帮助我们在模型开发阶段进行调优,还能够在模型部署后持续监控其效果。本章将深入探讨几种关键的回归指标,包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、R²分数(R-squared),以及它们各自的特点和适用场景。 #### 5.3.4.1 均方误差(Mean Squared Error, MSE) 均方误差是最常用的回归性能评价指标之一,它计算了模型预测值与真实值之间差异的平方的平均值。MSE的计算公式如下: \[ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] 其中,$n$ 是样本数量,$y_i$ 是第 $i$ 个样本的真实值,$\hat{y}_i$ 是模型对第 $i$ 个样本的预测值。MSE的值越小,表示模型的预测越准确。MSE的一个主要优点是对异常值较为敏感,这在某些应用中可能是有利的,因为它能反映出模型对极端情况的处理能力。然而,这也可能导致模型过于关注少数极端情况,而忽略了大多数普通情况。 #### 5.3.4.2 均方根误差(Root Mean Squared Error, RMSE) 均方根误差是MSE的平方根,它保持了MSE的量纲,使得误差的解读更加直观。RMSE的计算公式为: \[ \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \] RMSE与MSE在评估模型性能时具有相同的优缺点,即都对异常值敏感,但RMSE的单位与真实值相同,便于理解和比较。例如,在房价预测中,如果真实房价和预测房价的单位都是元/平方米,那么RMSE将直接以元/平方米为单位表示模型的预测误差,这对于非专业人士来说更容易理解。 #### 5.3.4.3 平均绝对误差(Mean Absolute Error, MAE) 与MSE和RMSE不同,平均绝对误差计算的是模型预测值与真实值之间差异的绝对值的平均值。MAE的计算公式为: \[ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| \] MAE的一个显著优点是对异常值不那么敏感。在存在极端异常值的情况下,MAE可能比MSE或RMSE更能反映模型的整体性能。这是因为MAE在计算误差时,不论误差的大小,都给予相同的权重,而MSE和RMSE则会对较大的误差给予更大的惩罚。然而,这种不敏感性也可能导致模型在某些情况下忽略了重要的极端情况。 #### 5.3.4.4 R²分数(R-squared) R²分数,也称为决定系数,是回归模型性能的另一个重要指标。它表示模型预测值能够解释真实值变异的百分比。R²分数的计算公式为: \[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \] 其中,$\bar{y}$ 是真实值的平均值。R²分数的取值范围从0到1,值越接近1,表示模型的预测性能越好。R²分数等于1时,表示模型完美地预测了真实值;R²分数为0时,表示模型的预测结果和简单使用真实值的平均值作为预测值没有区别。需要注意的是,R²分数可能会给出负值,这通常意味着模型的表现比简单地使用真实值的平均值进行预测还要差。 #### 5.3.4.5 指标选择与实际应用 在实际应用中,选择合适的回归指标至关重要。一般来说,MSE、RMSE和MAE用于量化模型的预测误差,而R²分数则提供了模型预测能力相对于简单平均值预测能力的比较。如果数据中异常值较多,且你希望模型能够对这些异常值保持敏感,那么MSE或RMSE可能是更好的选择。相反,如果你希望模型更加稳健,不受少数极端值的影响,那么MAE可能更为合适。而R²分数则提供了一个直观的、标准化的性能指标,便于在不同模型之间进行比较。 此外,还需要注意的是,没有任何一个指标是完美的,它们各有优缺点。因此,在评估模型性能时,建议同时使用多个指标,并结合实际问题的背景和需求进行综合考虑。同时,还可以通过绘制预测值与真实值的散点图、残差图等可视化工具,进一步分析模型的预测能力和存在的问题。 总之,回归指标是评估回归模型性能的重要工具。通过合理使用这些指标,我们可以对模型的预测能力有一个全面而深入的了解,进而指导模型的调优和部署工作。
上一篇:
5.3.3 多分类指标
下一篇:
5.3.5 在模型选择中使用评估指标
该分类下的相关小册推荐:
实战Python网络爬虫
剑指Python(万变不离其宗)
Python爬虫入门与实战开发(下)
Python甚础Django与爬虫
Python编程轻松进阶(四)
Python机器学习实战
Python编程轻松进阶(五)
Python数据分析与挖掘实战(上)
Python编程轻松进阶(二)
Python合辑6-字典专题
Python合辑7-集合、列表与元组
Python合辑13-面向对象编程案例(上)