120 | Differentiable Search：如何将NAS变为可微的问题-NLP入门到实战精讲(下)

当前位置:　首页>> 技术小册>> NLP入门到实战精讲(下)

章节 120 | Differentiable Search：如何将NAS变为可微的问题

引言

在深度学习领域，神经网络架构搜索（Neural Architecture Search, NAS）作为自动化机器学习（AutoML）的一个重要分支，旨在通过算法自动寻找最适合特定任务的神经网络架构，从而减少对人工设计架构的依赖。然而，传统的NAS方法往往采用强化学习、进化算法等黑盒优化技术，这些方法计算成本高昂且效率低下。为了克服这些缺点，研究者们提出了可微分搜索（Differentiable Search）策略，通过将NAS问题转化为可微优化问题，利用梯度下降等高效优化算法进行搜索，极大地提高了搜索效率和效果。本章将深入探讨可微分搜索的基本原理、关键技术以及实现方法，展现其如何将NAS问题转化为可微问题的艺术。

1. 可微分搜索的背景与动机

1.1 NAS的挑战

传统的NAS方法通常面临两大挑战：一是搜索空间巨大，即使在小规模的搜索空间内，穷举所有可能的架构也是不可行的；二是评估成本高，每次评估一个架构的性能（如准确率）都需要进行完整的训练过程，这大大增加了计算成本。

1.2 可微分搜索的提出

为了解决上述问题，可微分搜索（Differentiable Architecture Search, DARTS）等方法应运而生。它们的核心思想是将离散的架构搜索空间参数化为连续的、可微分的搜索空间，使得可以使用梯度下降等高效的优化算法来优化网络架构。通过这一转化，NAS问题从一个高成本的离散优化问题变为了一个相对低成本的连续优化问题。

2. 可微分搜索的基本原理

2.1 搜索空间参数化

在可微分搜索中，首先需要定义一个超网络（Supernet），该网络包含了所有候选操作（如卷积、池化、激活函数等）和可能的连接路径。超网络中的每个候选操作或连接路径都关联一个可学习的权重（也称为架构参数），这些权重最初是随机初始化的。

2.2 混合操作与架构梯度

为了构建可微分的搜索空间，可微分搜索采用混合操作（Mixed Operations）的策略。在每个选择点（如分支或层的选择），所有候选操作按其架构参数的softmax权重进行加权混合，形成一个连续的、可微分的操作组合。这样，整个超网络的输出就变成了所有候选架构的加权和，且这一过程是可微分的。

在训练过程中，不仅更新网络权重（模型参数），还通过梯度下降等优化算法更新架构参数。由于搜索空间是可微分的，因此可以直接利用模型参数的梯度信息来指导架构参数的优化，即计算架构梯度。

2.3 架构导出

当搜索过程结束后，根据架构参数的值选择每个选择点上的最优操作（通常是架构参数最大的操作），从而从超网络中导出最终的神经网络架构。这个过程通常涉及到一定的离散化或剪枝策略，以确保最终架构的效率和性能。

3. 可微分搜索的关键技术

3.1 搜索空间的设计

搜索空间的设计是可微分搜索中的关键一步。它决定了哪些候选操作和连接路径被包含在内，从而直接影响搜索效果和效率。一个好的搜索空间设计应该能够覆盖广泛的网络架构类型，同时保持适度的复杂性以避免搜索过程过于复杂。

3.2 近似优化技术

由于超网络的规模通常很大，直接对其进行完整训练可能非常耗时。因此，可微分搜索通常采用一些近似优化技术来加速搜索过程。例如，可以仅在超网络的一个子集上进行训练（如部分数据、部分层），或者采用二阶优化方法来加速架构参数的更新。

3.3 稳定性与正则化

可微分搜索过程中可能会出现架构参数的过度优化或梯度消失/爆炸等问题，影响搜索的稳定性和最终架构的性能。因此，需要引入适当的正则化项或稳定性机制来防止这些问题。例如，可以对架构参数施加L1或L2正则化，或者采用早停策略来避免过拟合。

4. 实现与应用

4.1 实现步骤

实现可微分搜索的大致步骤包括：定义搜索空间、构建超网络、定义损失函数和优化器、执行搜索过程（包括模型训练和架构参数更新）、导出最终架构并进行重新训练（通常称为“重训练”阶段）。

4.2 应用场景

可微分搜索已被广泛应用于计算机视觉、自然语言处理等多个领域。例如，在图像分类任务中，可以通过可微分搜索找到性能优异的卷积神经网络架构；在自然语言处理中，可以搜索适合特定NLP任务的循环神经网络或Transformer架构。此外，可微分搜索还可以与其他自动化机器学习技术结合使用，进一步提升自动化模型构建的效率和效果。