如何解决梯度消失和梯度膨胀?
How do you solve vanishing gradients and exploding gradients?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Deep Learning
标签: Vanishing Gradient, Exploding Gradient, ReLU, BatchNorm
参考答案摘要
答案 (1)梯度消失:根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。可以采用ReLU激活函数有效的解决梯度消失的情况,也可以用Batch Normalization解决这个问题。关于深度学习中Batch Normalization为什么效果好?(2)梯度膨胀根据链式法则,如果每一层神经元对...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。