logo

可靠性与可观测性怎么做?Prometheus/Grafana、checkpoint、leader-follower、快照分别解决什么问题?

How do you improve reliability and observability (Prometheus/Grafana, checkpointing, leader-follower, snapshots) in a leaderboard system?

题目类型: 技术面试题

这是一道技术面试题,常见于澳洲IT公司面试中。

难度: medium

分类: System Design

标签: reliability, observability, prometheus, grafana, checkpoint

参考答案摘要

答案 可靠性要回答“出事了能否快速发现 + 快速恢复 + 不丢关键数据”。 Prometheus + Grafana :采集时序指标(QPS、延迟、错误率、内存),可视化与告警。 Checkpoint(持久化) :Redis 做 AOF/RDB 或定期落盘,防止内存故障导致数据全丢。 Leader-Follower :缓存/存储做主从复制与 failover,提高可用性。 快照(snapshot)...

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

可靠性与可观测性怎么做?Prometheus/Grafana、checkpoint、leader-follower、快照分别解决什么问题?

Mediumsystem-designleaderboardrediscacheserverlessscalabilityreliabilitysecuritywebsocket

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案