Job 失败时如何重试?为什么要用指数退避(exponential backoff),以及如何处理 max_retries?
How do you retry failed jobs? Why use exponential backoff, and how do you enforce max_retries?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: System Design
标签: retry, backoff, max-retries, jitter
参考答案摘要
答案 失败重试通常遵循“可控重试”原则: worker 失败后先在 Job Table 增加 retry_count 并记录 execution 失败原因。 若 retry_count < max_retries ,则把任务重新入队或更新 next_run_time 为“延迟后再跑”。 达到 max_retries 后将 job 标记为 failed,避免无限重试。 指数退避 用于应对瞬时故障(网...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。