Tensorflow中梯度裁剪

2,405次阅读
没有评论

本文简单介绍梯度裁剪(gradient clipping)的方法及其作用,不管在RNN或者在其他网络都是可以使用的,比如博主最最近训练的DNN网络中就在用。

梯度裁剪一般用于解决 梯度爆炸(gradient explosion) 问题,而梯度爆炸问题在训练 RNN 过程中出现得尤为频繁,所以训练 RNN 基本都需要带上这个参数。常见的 gradient clipping 有两种做法

  1. 根据参数的 gradient 的值直接进行裁剪
  2. 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪

第一种做法很容易理解,就是先设定一个 gradient 的范围如 (-1, 1), 小于 -1 的 gradient 设为 -1, 大于这个 1 的 gradient 设为 1.

第二种方法则更为常见,先设定一个 clip_norm, 然后在某一次反向传播后,通过各个参数的 gradient 构成一个 vector,计算这个 vector 的 L2 norm(平方和后开根号)记为 LNorm,然后比较 LNorm 和 clip_norm 的值,若 LNorm <= clip_norm 不做处理,否则计算缩放因子 scale_factor = clip_norm/LNorm ,然后令原来的梯度乘上这个缩放因子。这样做是为了让 gradient vector 的 L2 norm 小于预设的 clip_norm

关于 gradient clipping 的作用可更直观地参考下面的图,没有gradient clipping 时,若梯度过大优化算法会越过最优点。

Tensorflow中梯度裁剪

而在一些的框架中,设置 gradient clipping 往往也是在 Optimizer 中设置,如 tensorflow 中设置如下

<span class="line">1</span>
<span class="line">2</span>
<span class="line">3</span>
<span class="line">4</span>
<span class="line">optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)</span>
<span class="line">gvs = optimizer.compute_gradients(cost)</span>
<span class="line">capped_gvs = [(tf.clip_by_value(grad, <span class="number">-1.</span>, <span class="number">1.</span>), var) <span class="keyword">for</span> grad, var <span class="keyword">in</span> gvs]</span>
<span class="line">train_op = optimizer.apply_gradients(capped_gvs)</span>

Keras 中设置则更为简单

<span class="line">1</span>
<span class="line">optimizer = optimizers.SGD(lr=<span class="number">0.001</span>, momentum=<span class="number">0.9</span>, clipnorm=<span class="number">1.</span>),</span>

除此之外,调试 RNN 是个比较 tricky 的活,可参考知乎上这个问题:此处输入链接的描述你在训练RNN的时候有哪些特殊的trick?

admin
版权声明:本站原创文章,由admin2019-04-28发表,共计1044字。
转载提示:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)