logo

梯度下降法的神经网络容易收到局部最优,为什么应用广泛?

Neural networks trained with gradient descent are said to easily get stuck in local optima. Why are they still widely used?

题目类型: 技术面试题

这是一道技术面试题,常见于澳洲IT公司面试中。

难度: hard

分类: Deep Learning

标签: Local Optima, Saddle Points, Hessian, Loss Landscape

参考答案摘要

答案 深度神经网络“容易收敛到局部最优”,很可能是一种想象,实际情况是,我们可能从来没有找到过“局部最优”,更别说全局最优了。很多人都有一种看法,就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下,优化问题最直观的困难就是有很多局部极值,如 人们直观的想象,高维的时候这样的局部极值会更多,指数级的增加,于是优化到全局最优就更难了。然而单变量到多变量一个重要差...

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

梯度下降法的神经网络容易收到局部最优,为什么应用广泛?

困难deep-learningoptimizationgradient-descentloss-landscapehessiansaddle-point

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案