logo

如何解决RNN梯度爆炸和弥散的问题?

How do you address exploding and vanishing (diffusing) gradients in RNNs?

题目类型: 技术面试题

这是一道技术面试题,常见于澳洲IT公司面试中。

难度: medium

分类: Deep Learning

标签: RNN, Exploding Gradient, Vanishing Gradient, Gradient Clipping, Initialization, ReLU

参考答案摘要

答案 为了解决梯度爆炸问题,Thomas Mikolov首先提出了一个简单的启发性的解决方案,就是当梯度大于一定阈值的时候,将它截断为一个较小的数。具体如算法1所述:算法:当梯度爆炸时截断梯度,下图可视化了梯度截断的效果。它展示了一个小的rnn(其中W为权值矩阵,b为bias项)的决策面。这个模型是一个小段时间的rnn单元组成;实心箭头表明每步梯度下降的训练过程。当梯度下降过程中,模型的目标函数取...

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

如何解决RNN梯度爆炸和弥散的问题?

Mediumdeep-learningrnngradient-clippingrelu

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案