你如何处理机器学习中不平衡的数据集?
How do you handle imbalanced datasets in machine learning?
题目类型: 行为面试题
这是一道行为面试题,常见于澳洲IT公司面试中。
难度: hard
分类: Behavioral
标签: Imbalanced Data, SMOTE, Class Weight, Threshold
参考答案摘要
答案 我会先用合适指标(PR-AUC、Recall、F1、按类召回)评估,再从数据与算法两端处理:数据层面可欠采样多数类、过采样少数类或用 SMOTE;算法层面可用 class weight/成本敏感学习、阈值移动、集成方法(Balanced RF)。同时确保采样只在训练集内进行,避免信息泄漏,并结合业务选择最优的 Precision-Recall 权衡点。
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。