神经网络中激活函数的真正意义?一个激活函数需要具备有哪些必要的属性?还有哪些属性是好的属性但不必要的?
What is the real meaning of activation functions in neural networks? What necessary properties should an activation function have, and what properties are good but not necessary?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: hard
分类: Deep Learning
标签: Activation Function, Nonlinearity, Differentiability, Saturation, Identity Mapping
参考答案摘要
答案 (1)非线性:即导数不是常数。这个条件是多层神经网络的基础,保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。 (2)几乎处处可微:可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU,只满足几乎处处可微(即仅在有限个点处不可微)。对于SGD算法来说,由于几乎不可能收敛到梯度接近零的位置,有限的不可微点对于优化结果不会有很大...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。