如何解决RNN梯度爆炸和弥散的问题?
How do you address exploding and vanishing (diffusing) gradients in RNNs?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Deep Learning
标签: RNN, Exploding Gradient, Vanishing Gradient, Gradient Clipping, Initialization, ReLU
参考答案摘要
答案 为了解决梯度爆炸问题,Thomas Mikolov首先提出了一个简单的启发性的解决方案,就是当梯度大于一定阈值的时候,将它截断为一个较小的数。具体如算法1所述:算法:当梯度爆炸时截断梯度,下图可视化了梯度截断的效果。它展示了一个小的rnn(其中W为权值矩阵,b为bias项)的决策面。这个模型是一个小段时间的rnn单元组成;实心箭头表明每步梯度下降的训练过程。当梯度下降过程中,模型的目标函数取...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。