BatchNorm(BN)和 LayerNorm(LN)有什么区别?各自适用场景?
What’s the difference between BatchNorm and LayerNorm, and when to use each?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Machine Learning
标签: BatchNorm, LayerNorm, Transformer, CNN
参考答案摘要
答案 BN 与 LN 的区别主要在“归一化的维度”和“是否依赖 batch 统计”。 BN :对每个通道/特征在 batch 维度上做均值方差归一化;训练依赖 batch 统计,推理用滑动平均。适合 CNN、batch 较大且分布稳定的场景。 LN :对单个样本在特征维度上归一化,不依赖 batch 大小;对小 batch 更稳,Transformer/序列模型常用 LN。 工程上:小 batch...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。