如何评估 A/B 测试得到 p-value=0.04 的结果是否可靠?
How would you assess the validity of a .04 p-value result from an AB test on a landing page feature?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: hard
分类: Experimentation, Statistics
标签: p-value, Confidence Interval, SRM, Validity
目标公司: TikTok
参考答案摘要
答案 p=0.04 代表在零假设成立时观测到当前或更极端结果的概率约 4%,但“显著≠有效”。我会做一套有效性检查:1)实验设计是否正确(随机化、分流、样本量/功效、停止规则);2)是否有 peeking 或多重指标/多重实验未校正;3)是否存在 SRM、漏斗断层或埋点问题;4)看效果大小与置信区间(是否业务上有意义、是否接近 0);5)看分端/分群一致性与是否可复现(re-run 或 holdo...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。