可靠性与可观测性怎么做?Prometheus/Grafana、checkpoint、leader-follower、快照分别解决什么问题?
How do you improve reliability and observability (Prometheus/Grafana, checkpointing, leader-follower, snapshots) in a leaderboard system?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: System Design
标签: reliability, observability, prometheus, grafana, checkpoint
参考答案摘要
答案 可靠性要回答“出事了能否快速发现 + 快速恢复 + 不丢关键数据”。 Prometheus + Grafana :采集时序指标(QPS、延迟、错误率、内存),可视化与告警。 Checkpoint(持久化) :Redis 做 AOF/RDB 或定期落盘,防止内存故障导致数据全丢。 Leader-Follower :缓存/存储做主从复制与 failover,提高可用性。 快照(snapshot)...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。