为什么 L1 正则更容易得到稀疏解?(直觉 + 数学解释都可以)
Why does L1 regularization tend to produce sparse solutions?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Machine Learning
标签: L1 sparsity, geometry, lasso
参考答案摘要
答案 直觉 :L1 的“惩罚斜率”在 0 附近是常数,优化时更容易把小权重直接推到 0;而 L2 在 0 附近斜率趋近 0,更多是“变小但不停留在 0”。 几何解释 :约束形式下,L1 的可行域是菱形(高维是多面体),与损失等高线相切时更容易落在坐标轴上(某些维度为 0),因此产生稀疏解;L2 的可行域是圆/球,更容易得到“各维都非零”的解。 工程结果 :很多小权重被压到 0,相当于自动做特征选择...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。