首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
当前位置:
首页>>
技术小册>>
机器学习入门指南
小册名称:机器学习入门指南
### 第十八章 从全局到局部:核技巧 在机器学习的广阔领域中,核技巧(Kernel Methods)是一种强大的工具,它允许我们通过一种非线性映射,将原始数据空间转换到一个更高维的特征空间,从而在这个新空间中更容易地找到数据的线性关系。这种转换不仅解决了原始空间中的非线性问题,还保留了数据的本质结构,使得许多原本复杂的问题变得简单而直观。本章将深入探讨核技巧的基本原理、应用场景、常见核函数以及它们在机器学习算法中的应用,带领读者从全局视角逐步深入到局部细节的精妙之处。 #### 1. 核技巧的基本概念 核技巧的核心在于“核函数”(Kernel Function),它是一个衡量两个数据点在特征空间中相似度的函数。在原始空间中,数据点可能呈现出复杂的非线性关系,难以直接通过线性模型捕捉。而核函数则提供了一种间接的方式,通过计算数据点在更高维特征空间中的内积(或相似度),来模拟原始空间中的非线性关系。这种转换过程不需要显式地计算高维空间中的坐标,而是通过核函数直接计算内积结果,从而大大减少了计算复杂度和存储空间的需求。 #### 2. 核技巧的数学基础 数学上,设原始数据空间为$\mathcal{X}$,特征空间(也称为希尔伯特空间)为$\mathcal{H}$,存在一个映射函数$\phi: \mathcal{X} \rightarrow \mathcal{H}$,将原始数据映射到特征空间。对于任意两个数据点$x, x' \in \mathcal{X}$,它们在特征空间中的内积$\langle \phi(x), \phi(x') \rangle_{\mathcal{H}}$可以通过一个函数$k(x, x')$来直接计算,即$k(x, x') = \langle \phi(x), \phi(x') \rangle_{\mathcal{H}}$。这里,$k(x, x')$就是所谓的核函数,它完全决定了特征空间的结构和数据的相似度度量。 #### 3. 常见核函数 核函数的选择对核方法的性能有着至关重要的影响。常见的核函数包括: - **线性核**:$k(x, x') = x \cdot x'$,实际上并没有进行特征空间的转换,等同于原始空间的内积。 - **多项式核**:$k(x, x') = (\gamma x \cdot x' + r)^d$,其中$\gamma, r, d$为参数,能够捕捉数据间的非线性关系,但随着$d$的增大,计算复杂度显著增加。 - **高斯核(RBF核)**:$k(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right)$,是最常用的核函数之一,具有无限维的特征空间,能够平滑地处理各种非线性问题。 - **Sigmoid核**:$k(x, x') = \tanh(\gamma x \cdot x' + r)$,在某些情况下,可以看作是一个神经网络层的简化版,具有一定的生物学意义。 #### 4. 核技巧在机器学习算法中的应用 核技巧广泛应用于多种机器学习算法中,极大地扩展了这些算法的应用范围和能力。以下是一些典型的应用实例: - **支持向量机(SVM)**:SVM是最经典的核方法应用之一。通过引入核函数,SVM能够在高维特征空间中寻找最优的超平面,实现数据的分类或回归。核函数的引入使得SVM能够处理非线性可分的数据集。 - **核主成分分析(KPCA)**:KPCA是传统主成分分析(PCA)的非线性扩展。通过核技巧,KPCA将数据映射到高维特征空间,并在该空间中执行PCA,从而提取出数据的非线性主成分。 - **核Fisher判别分析(KFDA)**:类似于KPCA,KFDA在特征空间中应用Fisher判别分析,旨在找到能够最大化类间距离同时最小化类内距离的非线性投影方向。 - **核岭回归(KRR)**:岭回归的一种非线性扩展,通过在特征空间中应用岭回归技术,KRR能够处理非线性回归问题,同时利用核函数来平滑预测函数,减少过拟合的风险。 #### 5. 核技巧的优势与挑战 **优势**: - **强大的非线性处理能力**:核技巧能够处理原始空间中的复杂非线性关系,使得线性模型也能胜任非线性任务。 - **灵活性**:通过选择不同的核函数,可以灵活地调整模型的复杂度和泛化能力。 - **统一框架**:为多种机器学习算法提供了一个统一的非线性扩展框架。 **挑战**: - **计算复杂度**:随着数据量的增加,核矩阵的计算和存储成为瓶颈,特别是对于大规模数据集。 - **核函数选择**:没有通用的最优核函数,选择合适的核函数通常需要依赖于问题的具体背景和先验知识。 - **过拟合风险**:高维特征空间中的复杂性可能导致模型过拟合,需要适当的正则化手段来控制。 #### 6. 结论与展望 核技巧作为机器学习领域的一项重要技术,以其强大的非线性处理能力和灵活性,在解决复杂问题中展现了独特的优势。然而,面对大数据时代的挑战,如何降低计算复杂度、提高核函数选择的智能性以及增强模型的鲁棒性,仍是未来研究的重要方向。随着计算能力的提升和算法的不断优化,相信核技巧将在更多领域发挥更大的作用,推动机器学习技术的进一步发展。 本章通过对核技巧的基本概念、数学基础、常见核函数、应用实例以及优势与挑战的全面介绍,希望能够帮助读者深入理解核技巧的核心思想和应用价值,为进一步的学习和研究打下坚实的基础。
上一篇:
17 | 几何角度看分类:支持向量机
下一篇:
19 | 非参数化的局部模型:K近邻
该分类下的相关小册推荐:
人工智能原理、技术及应用(上)
AI降临:ChatGPT实战与商业变现(中)
深度强化学习--算法原理与金融实践(三)
深度学习与大模型基础(上)
ChatGPT大模型:技术场景与商业应用(上)
ChatGPT原理与实战:大型语言模型(中)
深入浅出人工智能(上)
人工智能基础——基于Python的人工智能实践(下)
深度强化学习--算法原理与金融实践(二)
AI降临:ChatGPT实战与商业变现(上)
快速部署大模型:LLM策略与实践(上)
python与ChatGPT让excel高效办公(下)