梯度下降法的神经网络容易收到局部最优,为什么应用广泛?
Neural networks trained with gradient descent are said to easily get stuck in local optima. Why are they still widely used?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: hard
分类: Deep Learning
标签: Local Optima, Saddle Points, Hessian, Loss Landscape
参考答案摘要
答案 深度神经网络“容易收敛到局部最优”,很可能是一种想象,实际情况是,我们可能从来没有找到过“局部最优”,更别说全局最优了。很多人都有一种看法,就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下,优化问题最直观的困难就是有很多局部极值,如 人们直观的想象,高维的时候这样的局部极值会更多,指数级的增加,于是优化到全局最优就更难了。然而单变量到多变量一个重要差...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。