Hive 中的 Bucket(桶)是什么?有什么作用?
What are Buckets in Hive and what are they used for?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: Hive 数据组织, 分桶 Bucketing
标签: Hive, Buckets, Bucketing, performance, query optimization
参考答案摘要
核心答案 Hive 的 Buckets(分桶) 用于将表数据按照某个字段的 hash 或规则, 拆分成多个文件或目录 ,从而提高查询效率。 作用 提高查询性能 :尤其适用于 Join、抽样(sampling)、聚合等操作。 减少数据扫描范围 :查询时可更快定位数据桶文件。 配合分区使用 :分区解决“按目录切分”,分桶解决“目录内文件进一步切分”。
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。