通知系统需要哪些监控与日志能力?应该追踪哪些关键指标并设置告警?
What monitoring and logging capabilities are needed for a notification system? What key metrics should be tracked and alerted on?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: medium
分类: observability, system-design
标签: monitoring, logging, metrics, alerting, elk, prometheus, grafana, delivery-latency
参考答案摘要
TL;DR 需要集中式日志、指标监控与告警:通过 ELK 或 Prometheus/Grafana 采集各组件日志并监控成功率、失败率、投递延迟、吞吐等。失败率异常、延迟飙升或队列积压超过阈值应触发告警。 核心能力 Centralized Logging :集中收集各组件日志(如 ELK)。 Metrics :追踪每个渠道成功率、失败率、延迟、吞吐。 Alerting :关键阈值触发告警(失败率、...
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。