首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
51 | 神经网络的构建:Residual Connection和Dense Connection
52 | 神经网络的构建:Network in Network
53 | 神经网络的构建:Gating Mechanism和Attention
54 | 神经网络的构建:Memory
55 | 神经网络的构建:Activation Function
56 | 神经网络的构建:Normalization
57 | 神经网络的训练:初始化
58 | 神经网络的训练:学习率和Warm-up
59 | 神经网络的训练:新的PyTorch训练框架
60 | Transformer:如何通过Transformer榨取重要变量?
61 | Transformer代码实现剖析
62 | xDeepFM:如何用神经网络处理高维的特征?
63 | xDeepFM的代码解析
64 | 时序建模:如何用神经网络解决时间序列的预测问题?
65 | 图嵌入:如何将图关系纳入模型?
66 | 图网络简介:如何在图结构的基础上建立神经网络?
67 | 模型融合基础:如何让你所学到的模型方法一起发挥作用?
68 | 高级模型融合技巧:Metades是什么?
69 | 挖掘自然语言中的人工特征:如何用传统的特征解决问题?
70 | 重新审视Word Embedding:Negative Sampling和Contextual Embedding
71 | 深度迁移学习模型:从ELMo到BERT
72 | 深度迁移学习模型:RoBERTa、XLNet、ERNIE和T5
73 | 深度迁移学习模型:ALBERT和ELECTRA
74 | 深度迁移学习模型的微调:如何使用TensorFlow在TPU对模型进行微调
75 | 深度迁移学习模型的微调:TensorFlow BERT代码简析
76 | 深度迁移学习的微调:如何利用PyTorch实现深度迁移学习模型的微调及代码简析
77 | 优化器:Adam和AdamW
78 | 优化器:Lookahead,Radam和Lamb
79 | 多重loss的方式:如何使用多重loss来提高模型准确率?
80 | 数据扩充的基本方法:如何从少部分数据中扩充更多的数据并避免过拟合?
81 | UDA:一种系统的数据扩充框架
82 | Label Smoothing和Logit Squeezing
83 | 底层模型拼接:如何让不同的语言模型融合在一起从而达到更好的效果?
84 | 上层模型拼接:如何在语言模型基础上拼接更多的模型?
85 | 长文本分类:截取、关键词拼接和预测平均
86 | Virtual Adverserial Training:如何减少一般对抗训练难收敛的问题并提高结果的鲁棒性?
87 | 其他Embedding的训练:还有哪些Embedding方法?
88 | 训练预语言模型
89 | 多任务训练:如何利用多任务训练来提升效果?
90 | Domain Adaptation:如何利用其它有标注语料来提升效果?
91 | Few-shot Learning:是否有更好的利用不同任务的方法?
92 | 半监督学习:如何让没有标注的数据也派上用场?
93 | 依存分析和Semantic Parsing概述
94 | 依存分析和Universal Depdency Relattions
95 | 如何在Stanza中实现Dependency Parsing
96 | Shift Reduce算法
97 | 基于神经网络的依存分析算法
98 | 树神经网络:如何采用Tree LSTM和其它拓展方法?
99 | Semantic Parsing基础:Semantic Parsing的任务是什么?
当前位置:
首页>>
技术小册>>
NLP入门到实战精讲(中)
小册名称:NLP入门到实战精讲(中)
### 55 | 神经网络的构建:Activation Function 在深入探讨神经网络的构建过程中,激活函数(Activation Function)扮演着至关重要的角色。它们不仅是神经网络模型能够学习非线性关系的关键,也是决定网络性能与行为的重要因素。本章将详细解析激活函数的概念、种类、选择原则及其在神经网络中的应用。 #### 一、激活函数概述 激活函数,又称为传递函数,是神经网络中神经元节点上的一种函数,用于将神经元的输入(即加权和)映射到输出上。在没有激活函数的情况下,神经网络将仅仅是一个线性回归模型,无法处理复杂的非线性问题。激活函数为神经网络引入了非线性因素,使其能够逼近任意复杂的函数,从而具备解决复杂模式识别、分类、回归等问题的能力。 #### 二、常见激活函数 ##### 2.1 Sigmoid 函数 Sigmoid 函数是最早使用的激活函数之一,其数学表达式为: \[ \sigma(x) = \frac{1}{1 + e^{-x}} \] Sigmoid 函数将任意实值压缩到区间(0, 1)内,常用于二分类问题中输出层的激活,表示概率值。然而,Sigmoid 函数存在梯度消失(当输入值远离0时,梯度接近0)和计算量相对较大的问题,因此在现代深度学习模型中已较少使用。 ##### 2.2 Tanh 函数 Tanh(双曲正切)函数是Sigmoid函数的一种变体,其数学表达式为: \[ \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \] Tanh 函数将输入值映射到(-1, 1)区间内,相比Sigmoid函数,其输出均值更接近0,有助于加速收敛。但同样存在梯度消失问题,特别是在深层网络中。 ##### 2.3 ReLU 函数 ReLU(Rectified Linear Unit,修正线性单元)函数是目前最流行的激活函数之一,其定义为: \[ \text{ReLU}(x) = \max(0, x) \] ReLU 函数简单高效,计算速度快,且当输入为正时,梯度恒为1,有效缓解了梯度消失问题。同时,它使网络具有了稀疏性,因为负输入会被置零,减少了参数的相互依存关系,有助于防止过拟合。然而,ReLU 函数在训练过程中可能会导致神经元“死亡”,即某些神经元永远不会被激活,因为当输入持续为负时,其梯度始终为零。 ##### 2.4 Leaky ReLU, PReLU, ELU 等变体 为了解决ReLU函数的神经元死亡问题,研究者们提出了多种ReLU的变体,如Leaky ReLU、Parametric ReLU(PReLU)、Exponential Linear Unit(ELU)等。这些变体在输入为负时给予一个小的非零梯度,从而避免了神经元死亡现象,同时保持了ReLU函数的其他优点。 - **Leaky ReLU**: \[ \text{Leaky ReLU}(x) = \max(\alpha x, x) \] 其中,\(\alpha\) 是一个很小的正数(如0.01),用于控制负输入时的梯度。 - **PReLU**: 与Leaky ReLU类似,但\(\alpha\)是可学习的参数,通过训练过程自动调整。 - **ELU**: \[ \text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases} \] ELU结合了ReLU和Sigmoid的优点,对于负输入值有饱和特性,有助于减少输出偏移,同时保留ReLU的稀疏激活特性。 #### 三、激活函数的选择原则 在选择激活函数时,需综合考虑以下因素: 1. **非线性能力**:确保所选函数能引入足够的非线性,使网络能够学习复杂模式。 2. **梯度消失/爆炸问题**:避免使用在极端输入下梯度接近零或过大的函数,如原始Sigmoid函数。 3. **计算效率**:选择计算简单、高效的函数,以加速训练过程。 4. **稀疏性**:在某些情况下,稀疏激活有助于减少参数间的依赖,提高泛化能力。 5. **任务需求**:根据具体任务(如分类、回归、生成等)选择合适的激活函数。例如,在二分类问题的输出层常使用Sigmoid或Softmax函数。 #### 四、激活函数在神经网络中的应用 激活函数的应用遍布神经网络的各个层。在隐藏层中,ReLU及其变体因其高效性和缓解梯度消失的能力而被广泛应用。而在输出层,则根据任务需求选择合适的激活函数。例如,在二分类任务中,输出层通常使用Sigmoid函数输出概率值;在多分类任务中,则使用Softmax函数输出归一化的概率分布。 此外,随着深度学习研究的深入,研究者们也在不断探索新的激活函数,以期在特定任务上获得更好的性能。因此,在实际应用中,除了上述经典激活函数外,还应关注最新的研究成果,灵活选择和应用。 #### 五、结论 激活函数作为神经网络中的核心组件之一,对网络的性能和行为具有重要影响。通过深入理解激活函数的原理、种类、选择原则及其在神经网络中的应用,我们能够更加灵活地构建和优化神经网络模型,以应对各种复杂的机器学习任务。在未来的研究中,随着对神经网络理解的不断加深,我们期待看到更多创新性的激活函数出现,进一步推动深度学习领域的发展。
上一篇:
54 | 神经网络的构建:Memory
下一篇:
56 | 神经网络的构建:Normalization
该分类下的相关小册推荐:
数据分析和数据挖掘实战
AI Agent 智能体实战课
巧用ChatGPT轻松学演讲(下)
程序员必学数学基础课
人工智能基础——基于Python的人工智能实践(下)
用ChatGPT轻松玩转机器学习与深度学习
巧用ChatGPT轻松学演讲(上)
AI 绘画核心技术与实战
AI时代产品经理:ChatGPT与产品经理(下)
推荐系统概念与原理
AI降临:ChatGPT实战与商业变现(下)
大模型应用解决方案-基于ChatGPT(上)