DevOps：软件架构师行动指南3.3　服务运维功能

2022-04-16 15:11:13

3.3　服务运维功能

监控是运维过程中最重要的核心，因为它收集事件、检测事故和度量以判断是否符合服务级别协议。它提供了服务改善的基础。服务级别协议也可以定义和监控运维活动，例如，发生事故后的响应时间。

监控可以和其他控制结合在一起，例如，对云资源的自动伸缩，即在一个Web服务器池中，当平均CPU负载达到70%时就触发一个规则来启动新的Web服务器。控制可以是开环或者闭环。开环控制（即不考虑监控反馈）可以用于在预定的时间进行常规备份。在闭环控制中，在决定采取行动时考虑监控信息，例如在自动伸缩的例子中，闭环反馈周期可以嵌入在更复杂的控制环中，其中低级别的控制对具体的度量指标进行反应，而高级别的控制考虑更广范围的信息和长时间跨度的发展趋势。在*别，控制环可以连接不同的生命周期活动。根据所需度量的测量偏差，持续服务改进可以产生服务策略、设计和移交的改变——所有这些最终也都会反过来改变服务运维。

监控的结果由开发或运维团队来进行分析并采取行动。当制定DevOps过程时必须做一个决定：应该由哪个团队负责处理事故？参见第10章关于事故处理的讨论。有一种DevOps实践是开发团队分析他们自己开发的单系统监控的结果，而包括基础设施的多系统监控则由运维团队负责，同时运维团队还负责需要一个或多个开发团队合作处理的事故上报。

码农公寓

相关文章