• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

深度学习优化器-优化Tricks

Alg admin 来源:知乎-Juliuszh 4周前 (09-19) 131次浏览 0个评论 扫描二维码

在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以 Adam 为代表的自适应学习率优化算法可能存在的问题。那么,在实践中我们应该如何选择呢?

本文介绍 Adam+SGD 的组合策略,以及一些比较有用的 tricks.

回顾前文:

Adam 那么棒,为什么还对 SGD 念念不忘 (1)

Adam 那么棒,为什么还对 SGD 念念不忘 (2)

不同优化算法的核心差异:下降方向

从第一篇的框架中我们看到,不同优化算法最核心的区别,就是第三步所执行的下降方向:

[公式]

这个式子中,前半部分是实际的学习率(也即下降步长),后半部分是实际的下降方向。SGD 算法的下降方向就是该位置的梯度方向的反方向,带一阶动量的 SGD 的下降方向则是该位置的一阶动量方向。自适应学习率类优化算法为每个参数设定了不同的学习率,在不同维度上设定不同步长,因此其下降方向是缩放过(scaled)的一阶动量方向。

由于下降方向的不同,可能导致不同算法到达完全不同的局部最优点。An empirical analysis of the optimization of deep network loss surfaces 这篇论文中做了一个有趣的实验,他们把目标函数值和相应的参数形成的超平面映射到一个三维空间,这样我们可以直观地看到各个算法是如何寻找超平面上的最低点的。

上图是论文的实验结果,横纵坐标表示降维后的特征空间,区域颜色则表示目标函数值的变化,红色是高原,蓝色是洼地。他们做的是配对儿实验,让两个算法从同一个初始化位置开始出发,然后对比优化的结果。可以看到,几乎任何两个算法都走到了不同的洼地,他们中间往往隔了一个很高的高原。这就说明,不同算法在高原的时候,选择了不同的下降方向。

Adam+SGD 组合策略

正是在每一个十字路口的选择,决定了你的归宿。如果上天能够给我一个再来一次的机会,我会对那个女孩子说:SGD!

不同优化算法的优劣依然是未有定论的争议话题。据我在 paper 和各类社区看到的反馈,主流的观点认为:Adam 等自适应学习率算法对于稀疏数据具有优势,且收敛速度很快;但精调参数的 SGD(+Momentum)往往能够取得更好的最终结果。

那么我们就会想到,可不可以把这两者结合起来,先用 Adam 快速下降,再用 SGD 调优,一举两得?思路简单,但里面有两个技术问题:

  1. 什么时候切换优化算法?——如果切换太晚,Adam 可能已经跑到自己的盆地里去了,SGD 再怎么好也跑不出来了。
  2. 切换算法以后用什么样的学习率?——Adam 用的是自适应学习率,依赖的是二阶动量的累积,SGD 接着训练的话,用什么样的学习率?

上一篇中提到的论文 Improving Generalization Performance by Switching from Adam to SGD 提出了解决这两个问题的思路。

首先来看第二个问题切换之后用什么样的学习率。Adam 的下降方向是

[公式]

而 SGD 的下降方向是

[公式].

[公式] 必定可以分解为 [公式] 所在方向及其正交方向上的两个方向之和,那么其在 [公式] 方向上的投影就意味着 SGD 在 Adam 算法决定的下降方向上前进的距离,而在 [公式] 的正交方向上的投影是 SGD 在自己选择的修正方向上前进的距离。

图片来自原文,这里 p 为 Adam 下降方向,g 为梯度方向,r 为 SGD 的学习率。

如果 SGD 要走完 Adam 未走完的路,那就首先要接过 Adam 的大旗——沿着 [公式] 方向走一步,而后在沿着其正交方向走相应的一步。

这样我们就知道该如何确定 SGD 的步长(学习率)了——SGD 在 Adam 下降方向上的正交投影,应该正好等于 Adam 的下降方向(含步长)。也即:

[公式]

解这个方程,我们就可以得到接续进行 SGD 的学习率:

[公式]

为了减少噪声影响,作者使用移动平均值来修正对学习率的估计:

[公式]

[公式]

这里直接复用了 Adam 的 [公式] 参数。

然后来看第一个问题,何时进行算法的切换

作者的回答也很简单,那就是当 SGD 的相应学习率的移动平均值基本不变的时候,即:

[公式] . 每次迭代玩都计算一下 SGD 接班人的相应学习率,如果发现基本稳定了,那就 SGD 以 [公式] 为学习率接班前进。

优化算法的常用 tricks

最后,分享一些在优化算法的选择和使用方面的一些 tricks。

  1. 首先,各大算法孰优孰劣并无定论。如果是刚入门,优先考虑SGD+Nesterov Momentum或者Adam.Standford 231n : The two recommended updates to use are either SGD+Nesterov Momentum or Adam
  2. 选择你熟悉的算法——这样你可以更加熟练地利用你的经验进行调参。
  3. 充分了解你的数据——如果模型是非常稀疏的,那么优先考虑自适应学习率的算法。
  4. 根据你的需求来选择——在模型设计实验过程中,要快速验证新模型的效果,可以先用 Adam 进行快速实验优化;在模型上线或者结果发布前,可以用精调的 SGD 进行模型的极致优化。
  5. 先用小数据集进行实验。有论文研究指出,随机梯度下降算法的收敛速度和数据集的大小的关系不大。(The mathematics of stochastic gradient descent are amazingly independent of the training set size. In particular, the asymptotic SGD convergence rates are independent from the sample size. [2])因此可以先用一个具有代表性的小数据集进行实验,测试一下最好的优化算法,并通过参数搜索来寻找最优的训练参数。
  6. 考虑不同算法的组合。先用 Adam 进行快速下降,而后再换到 SGD 进行充分的调优。切换策略可以参考本文介绍的方法。
  7. 数据集一定要充分的打散(shuffle)。这样在使用自适应学习率算法的时候,可以避免某些特征集中出现,而导致的有时学习过度、有时学习不足,使得下降方向出现偏差的问题。
  8. 训练过程中持续监控训练数据和验证数据上的目标函数值以及精度或者 AUC 等指标的变化情况。对训练数据的监控是要保证模型进行了充分的训练——下降方向正确,且学习率足够高;对验证数据的监控是为了避免出现过拟合。
  9. 制定一个合适的学习率衰减策略。可以使用定期衰减策略,比如每过多少个 epoch 就衰减一次;或者利用精度或者 AUC 等性能指标来监控,当测试集上的指标不变或者下跌时,就降低学习率。

这里只列举出一些在优化算法方面的 trick,如有遗漏,欢迎各位知友在评论中补充,我将持续更新此文。提前致谢!


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明深度学习优化器-优化 Tricks
喜欢 (0)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!