什么是 Partitioning?为什么所有相同 key 的数据必须进入同一个 reducer?
What is partitioning?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Partitioning, Reducer Semantics
标签: partitioning, reducer, same-key, aggregation
参考答案摘要
Partitioning 定义 Partitioning 是确定 mapper 输出应该发送到哪个 reducer 的过程。 为什么相同 key 必须进入同一个 reducer? 因为 reducer 的聚合逻辑是基于 key 的:要正确聚合某个 key 的全部 values,必须确保该 key 的所有中间输出集中到同一个 reducer,否则会产生不完整或错误的聚合结果。
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。