如何在云端(例如 AWS EC2)扩展 Apache Mahout?为什么仅仅增加 Hadoop 节点并不一定能线性扩展?
How can we scale Apache Mahout in the cloud (e.g., AWS EC2), and why isn't scaling as simple as adding more Hadoop nodes?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: hard
分类: Apache Mahout, Cloud Scaling, Performance
标签: aws-ec2, hadoop, scaling, feature-selection, sparsity, memory, bandwidth, cpu
参考答案摘要
如何在云端扩展 Mahout(核心结论) Mahout 的扩展并不是简单地“往 Hadoop 集群加节点”就能解决。影响 Mahout 扩展效率的关键因素包括: 算法选择(algorithm choice) 节点数量(number of nodes) 特征选择(feature selection) 数据稀疏度(sparseness of data) 内存(memory) 、 带宽(bandwidt...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。