Google SRE

ruizhou2023/6/14大约 3 分钟

原文地址：https://sre.google/sre-book/table-of-contents/

100%的可用性是不现实的，需要达到这个目标的成本通常远超于所能获得的价值，所以 Google 会针对每种产品设定一个错误预算（容错率），既能保证用户体验又不影响创新和部署的速度。

第1章 SRE 方法论

sre 的组成：

sre 的特点

sre 应该有个传统运维工作 50%的上限，并且随着时间推移期望全部消费这类工作，全力投入研发工作。因为整个系统应该可以自主运行，自动修复问题。

终极目标是推动整个系统趋向于无人化运行，不仅仅是自动化某些人工流程。

sre 必须将 50%精力花在真实开发工作上。

不应该一味追求 100%，不是一个正确的可靠性目标。需要考虑

商业部和产品部必须由这两者建立一个合理的可靠性目标，一旦建立，1-可靠性目标就是错误预算，研发和 sre 可以在这个范围内将这个预算用于新功能或者创新等。

错误预算用途：研发团队可以上线新功能。提高新功能上线速度，常见战术策略，灰度发布，ab 测试等，这些手段都可以更合理使用错误预算。

解决研发和 sre 组织架构的冲突，不再是零事故，目标一致，为了保证业务可用性同时加快上线速度。

sre 监控服务质量和可用性的主要手段。

三类输出

评价一个团队将系统恢复到正常情况的最有效指标，MTTR。可靠性是 MTTF（平均失败时间）和 MTTR（平均恢复时间）的函数。

有预案的运维手册可以是 MTTR 降低 3 倍以上。

70%事故由某种部署变更触发。

变更的最佳实践是使用自动化来完成如下：

需要具备这种预测和容量规划意识。

容量规划需要：

资源部署和配置必须能够非常迅速完成。

需要关心资源利用率