logo

通知系统需要哪些监控与日志能力?应该追踪哪些关键指标并设置告警?

What monitoring and logging capabilities are needed for a notification system? What key metrics should be tracked and alerted on?

题目类型: 技术面试题

这是一道技术面试题,常见于澳洲IT公司面试中。

难度: medium

分类: observability, system-design

标签: monitoring, logging, metrics, alerting, elk, prometheus, grafana, delivery-latency

参考答案摘要

TL;DR 需要集中式日志、指标监控与告警:通过 ELK 或 Prometheus/Grafana 采集各组件日志并监控成功率、失败率、投递延迟、吞吐等。失败率异常、延迟飙升或队列积压超过阈值应触发告警。 核心能力 Centralized Logging :集中收集各组件日志(如 ELK)。 Metrics :追踪每个渠道成功率、失败率、延迟、吞吐。 Alerting :关键阈值触发告警(失败率、...

本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。

← 返回面试题库

通知系统需要哪些监控与日志能力?应该追踪哪些关键指标并设置告警?

Mediumsystem-design

想查看完整答案?

登录匠人学院学习中心,获取 STAR 格式回答和详细技术解析

前往学习中心查看答案