logo

你如何处理机器学习中不平衡的数据集?

How do you handle imbalanced datasets in machine learning?

题目类型: 行为面试题

这是一道行为面试题,常见于澳洲IT公司面试中。

难度: hard

分类: Behavioral

标签: Imbalanced Data, SMOTE, Class Weight, Threshold

参考答案摘要

答案 我会先用合适指标(PR-AUC、Recall、F1、按类召回)评估,再从数据与算法两端处理:数据层面可欠采样多数类、过采样少数类或用 SMOTE;算法层面可用 class weight/成本敏感学习、阈值移动、集成方法(Balanced RF)。同时确保采样只在训练集内进行,避免信息泄漏,并结合业务选择最优的 Precision-Recall 权衡点。

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

你如何处理机器学习中不平衡的数据集?

Hardmachine-learningevaluation

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案