首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
当前位置:
首页>>
技术小册>>
机器学习入门指南
小册名称:机器学习入门指南
### 第12章 正则化处理:收缩方法与边际化 在机器学习的广阔领域中,正则化是一项至关重要的技术,它旨在通过引入额外的信息来减少模型复杂度,防止过拟合,提高模型的泛化能力。本章将深入探讨正则化的两种核心策略:收缩方法(Shrinkage Methods)与边际化(Margin Maximization),解析它们的原理、应用场景及实现方式。 #### 12.1 引言 在构建机器学习模型时,我们往往面临一个关键挑战:如何在保证模型能够准确拟合训练数据的同时,又避免其在未见过的数据上表现糟糕,即过拟合问题。正则化作为一种有效手段,通过调整模型的复杂度,使之在复杂度和泛化能力之间找到最佳平衡点。本章将详细讨论两种正则化技术——收缩方法与边际化,它们分别从参数规模控制和决策边界优化两个角度入手,解决过拟合问题。 #### 12.2 收缩方法(Shrinkage Methods) 收缩方法通过约束模型参数的规模(如绝对值大小或平方和)来减少模型的复杂度。其核心思想在于,小的参数值意味着模型对单个特征的依赖程度较低,从而提高了模型的稳定性和泛化能力。常见的收缩方法包括岭回归(Ridge Regression)、Lasso回归等。 ##### 12.2.1 岭回归(Ridge Regression) 岭回归是线性回归的一种改进形式,它通过向损失函数中添加一个L2范数的惩罚项来限制参数的规模。L2范数惩罚项即参数向量的平方和,乘以一个正则化系数λ(lambda)。数学上,岭回归的目标函数可以表示为: \[ J(\theta) = \frac{1}{2N} \sum_{i=1}^{N} (y_i - (X_i^T \theta))^2 + \frac{\lambda}{2} \|\theta\|^2_2 \] 其中,$N$ 是样本数量,$X_i$ 是第$i$个样本的特征向量,$y_i$ 是对应的目标值,$\theta$ 是模型参数向量,$\|\theta\|^2_2$ 是$\theta$的L2范数。岭回归通过调整λ的值来控制正则化的强度:λ越大,对参数规模的惩罚越重,模型越简单;反之,模型越复杂。 ##### 12.2.2 Lasso回归 与岭回归不同,Lasso回归采用L1范数作为惩罚项,即参数向量的绝对值之和。Lasso回归的目标函数为: \[ J(\theta) = \frac{1}{2N} \sum_{i=1}^{N} (y_i - (X_i^T \theta))^2 + \lambda \|\theta\|_1 \] Lasso回归的一个重要特性是它能够产生稀疏解,即许多参数会被压缩到0,这有助于特征选择,因为非零参数对应的特征被认为是对模型预测有重要影响的特征。然而,Lasso回归的求解相比岭回归更为复杂,常采用坐标下降法或最小角回归法(LARS)进行求解。 #### 12.3 边际化(Margin Maximization) 边际化方法则侧重于通过最大化分类边界(Margin)的宽度来提高模型的泛化能力。在支持向量机(SVM)中,这一思想得到了淋漓尽致的体现。 ##### 12.3.1 支持向量机(SVM) 支持向量机是一种强大的分类算法,其核心思想是在特征空间中寻找一个最优的超平面,以最大化不同类别样本之间的边际(即最近样本点到超平面的距离)。在二分类问题中,SVM试图找到一个超平面,使得两类样本点到该平面的最小距离(即支持向量到超平面的距离)最大化。这一距离被称为边际。 SVM通过引入软边际(Soft Margin)的概念来处理线性不可分的情况,允许少量样本点跨越边际,但会对此类行为进行惩罚,惩罚程度由正则化参数C控制。C值越大,对违反边际的惩罚越重,模型越倾向于硬边际(Hard Margin)解;C值越小,模型越能容忍边界上的错误分类,但可能会增加模型的复杂度。 ##### 12.3.2 核技巧与特征映射 为了处理非线性问题,SVM引入了核技巧(Kernel Trick),通过核函数将原始特征空间映射到一个更高维的空间中,使得原本线性不可分的问题在新空间中变得线性可分。常用的核函数包括线性核、多项式核、径向基函数(RBF)核等。核技巧极大地扩展了SVM的应用范围,使其能够处理各种复杂的分类问题。 #### 12.4 正则化参数的选择 无论是收缩方法还是边际化方法,正则化参数的选择都至关重要。过小的正则化参数可能导致模型过拟合,而过大的正则化参数则可能使模型欠拟合。因此,寻找最优的正则化参数是正则化过程中的一个重要环节。常用的参数选择方法包括交叉验证(Cross-Validation)、网格搜索(Grid Search)和随机搜索(Random Search)等。 #### 12.5 实践与应用 正则化技术在机器学习的多个领域都有广泛应用,包括但不限于回归分析、分类问题、聚类分析等。在实际应用中,根据具体问题的性质和数据的特征,选择合适的正则化方法和调整正则化参数,是提升模型性能的关键。 #### 12.6 小结 本章深入探讨了正则化处理的两种核心策略——收缩方法与边际化。收缩方法通过限制模型参数的规模来减少模型复杂度,而边际化方法则通过最大化分类边界的宽度来提高模型的泛化能力。两者各有优势,适用于不同的场景。通过合理选择正则化方法和调整正则化参数,我们可以有效地防止模型过拟合,提高模型的稳定性和泛化能力。在未来的机器学习实践中,掌握正则化技术将是我们解决复杂问题、构建高效模型的重要武器。
上一篇:
11 | 基础线性回归:一元与多元
下一篇:
13 | 线性降维:主成分的使用
该分类下的相关小册推荐:
大模型应用解决方案-基于ChatGPT(上)
可解释AI实战PyTorch版(下)
ChatGPT与提示工程(上)
深度学习推荐系统实战
大模型应用解决方案-基于ChatGPT(中)
ChatGPT实战开发微信小程序
快速部署大模型:LLM策略与实践(下)
ChatGPT大模型:技术场景与商业应用(上)
ChatGPT与AIGC工具入门实战指南
人工智能超入门丛书--数据科学
一本书读懂AIGC提示词
NLP自然语言处理