logo

Worker 节点故障如何检测与恢复?Pending vs In-progress 任务分别怎么处理,checkpointing 有什么用?

How do you detect and recover from worker failures? How do you handle pending vs in-progress jobs, and what is checkpointing for?

题目类型: 技术面试题

这是一道技术面试题,常见于澳洲IT公司面试中。

难度: medium

分类: System Design

标签: worker-failure, heartbeat, health-check, checkpointing

参考答案摘要

答案 故障检测常用两类机制: Heartbeat :worker 周期性上报心跳,Coordinator 连续多次未收到则判定 unhealthy。 Health checks :Coordinator 主动探测 CPU/内存/磁盘/网络等,识别过载或失联。 恢复时要区分: Pending(未开始) :直接重新入队,交给其他 worker 领取。 In-progress(执行中) :可能已产生部分...

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

Worker 节点故障如何检测与恢复?Pending vs In-progress 任务分别怎么处理,checkpointing 有什么用?

Mediumsystem-designdistributed-systemsjob-schedulerqueuekafkarabbitmqdynamodbcassandraleader-electionraftetcdzookeeperretryrate-limitingcheckpointing

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案