企业云监控-企业上云的基础监控解决方案

背景

经过十多年的发展,云已经成为新数字体验的核心。越来越多的客户上云,客户也从早期的中小站长演变成了今天的真正的企业客户,涵盖了几乎所有行业,新兴的传统的。

在企业客户的真实场景中,客户往往拥有海量规模的资源,拥有IaaS,PaaS,SaaS的多层次产品形态,多云,多账号,混合云成为常态

企业客户上云后的监控挑战

在这种背景下,企业客户上云如何实现对资源的有效管控,正面临着巨大的挑战:

企业云监控-企业上云的基础监控解决方案

首先是规模和复杂度,

有的客户有成千上万的云上资源,有的使用的产品种类多达上百种,海量的资源运行的怎么样,水位如何,稳定性如何?是否存在严重浪费或者严重不足?

对于单账号的用户,如何实现有效的隔离,在便利性的同时,提升安全性?

对于多账号的用户,如何实现监控管理的有效统一,提升运维管理的效率?

其次是多云混合云等复杂形态如何整合,

今天大部分的企业客户,都采用多云和混合云结合的模式,客户上云,原有的IT系统如何跟云上的监控系统打通,多个云之间如何有效协作,高效统一?

另外,企业客户的监控诉求,不仅仅是基础设施的监控,同时存在应用的性能监控,应用的可用性监控,以及到客户业务运行监控等。客户也希望能够有简单高效的方式对不同层次的监控进行统一。企业上云,从基础设施监控,到应用可用性,应用性能监控到业务指标监控,如何实现有效统一?

这些都是今天客户上云面临的一些典型的问题。

云监控的企业上云监控解决方案

在这个背景下,云监控在过去几年, 对产品功能进行了大规模的升级和重构, 重点推出了很多专门面向企业客户监控需求的产品功能, 形成了以基础版+企业版相结合的产品功能体系。

企业云监控-企业上云的基础监控解决方案

基础版,

包括主机监控,云产品监控,容器监控,应用分组,报警等基础功能, 满足客户基础监控需求。

企业版,

同时我们也推出了一系列面向企业客户监控需求的功能,形成了比较完善的企业版云监控产品功能体系。

包括支持多账号多云混合云的企业监控大盘,支持基础+应用+业务结合的一栈式监控,推出实时数据导出服务,部分产品的秒级监控服务,以及面向企业客户资源优化的资源水位报告等功能。

基础版+企业版相结合,满足不同层次客户的监控场景。后面会一一介绍这些不同的场景和解决方案。

多账号场景

首先我个人觉得企业上云后面临的最重要的一个场景就是多账号, 越来越多的中大型企业选择将多个部门的业务或不同项目搬迁上云,云上的资源快速增长。

阿里云账号是云上资源的容器,如果客户将云上所有业务的资源部署在单一账号下,可能面临诸多挑战。

1. 比如,公司内部的创新孵化项目或者核心业务通常要求保密,如果所有项目或业务都部署在同一个账号下,无法达到资源强隔离、严格保密的要求。

2. 在安全管理上,测试、生产环境,核心、非核心业务的安全等级要求往往不同,单账号环境部署将使得安全管理变得复杂、不灵活。

3. 在风险管控上,如果工作人员不慎将账号的AK信息暴露到公网,可能导致账号内所有业务信息的泄露甚至致使所有业务瘫痪。

也因此,越来越多的中大型企业选择多账号环境部署云上业务,以满足资源强隔离、安全灵活管理、安全风险分散等诉求。

 

在多账号环境下,企业的中心管理团队需要管理各个账号的用户并分配权限,对各账号的基础设施资源做运维管理,中心安全团队需要一览全局了解公司整体的安全态势并进行集中化安全管控。如何避免中心团队在不同账号间频繁登入登出,如何实现不同账号间网络连通,如何提升多账号环境下的管理效率?

此时我们期望通过自动、高效的方式来管理云上的多个账号和账号内的资源。 阿里云的资源目录产品为我们提供了解决以上问题的方案。

 

资源目录是我们在云上,集中管理和治理企业的多个账号及账号内云资源的服务。资源目录的核心能力,包括 组织结构的搭建,组织内账号权限策略管控,以及跨账号资源集中管理。通过账号的快速创建,以及账号的分组分层管理,我们可以便捷地搭建与云上业务管理相匹配的账号结构。

如果业务管理结构较为复杂,可以创建最多5层的目录结构以满足需要。当业务发生变动时,我们可以灵活地调整目录结构以适应业务变化。

账号的秒级创建和一键删除能力,让组织结构的管理灵活、无负担。

当前资源目录已与十余款阿里云其他云服务集成打通,涵盖身份权限、合规审计、安全、运维场景,企业的中心化团队比如中心运维、安全、审计团队,可以在与资源目录集成的云服务中实现跨账号资源的集中管理,省去在多个账号间的登入登出查看和操作,满足企业整体安全、审计合规的要求,提升云上业务管理的效率。

 

企业云监控-企业上云的基础监控解决方案

资源目录是一款免费服务,只需要为账号下开通的云资源付费。资源目录让多账号组织及资源管理更安全、更便捷。欢迎登陆资源目录控制台操作体验。

对于其中的运维场景,也云监控也通过和资源目录的整合,形成了面向多账号的监控方案。

 

云监控的多账号解决方案

针对企业中心运维团队的多账号统一监控的需求, 云监控提供了两种解决方案,

一是跨账号的数据统一,

就是基于资源目录的权限管理,把不同账号的监控数据统一汇集在一起, 在一个账号下查看所有分账号的数据,配置统一的监控大盘,配置统一的报警。

这种模式下,可以轻松实现跨账号的数据聚合,可以从更高层面了解整个企业在云上所有资源的情况,包括资源数量,资源水位,资源的稳定性等。

也可以轻松掌握,不同账号之间的资源数量对比,资源水位对比,稳定性对比等。 

企业云监控-企业上云的基础监控解决方案

二是报警统一

另外还有一种情况是,客户本身对数据汇集的需求不是很强烈, 就是不同账号的监控报警本来就是在不同团队不同账号下分别管理的,只是不需要在不同账号下重复创建联系人,这种情况下,云监控设计了可以在管理账号下统一创建联系人组,然后为联系人组创建webhook,把webhook分配给其他的分账号,然后在其他的分账号下的报警通知,配置这个webhook,这样,分账号的报警通知就会通过webhook,发给管理账号下的联系人组,从而以实现在报警层次的统一监控. 同时,这样也可以管理账号下,看到所有分账号的报警信息。

这种情况下, 缺点是,报警策略需要在不同账号下分别配置,且无法实现统一的监控大盘。无法实现跨账号的数据聚合。

企业云监控-企业上云的基础监控解决方案

小结:

值得一提的是,东京奥运会和北京冬奥会,都采用了数据统一的方案,将多个账号的数据统一在一起,来为客户提升高质量的监控护航服务。

可以说,云监控和资源目录的有效整合,为企业客户的多账号监控管理,提供了灵活易用的解决方案,完美的解决了客户多账号统一监控的需求。

单账号资源组

除了多账号模式之外,也有部分企业选择单账号的模式,尤其是敏捷型的互联网公司。比如钱大妈,

大单账号模式下,客户可以在一个账号下管理所有的资源,可以获得管理上的便利, 但是,大量的资源让企业面临巨大的资源管理挑战。

举个非常常见的例子。

作为项目X的资源管理人员,我需要知道:

项目X用了多少资源?怎么方便地查看、统计项目X的资源?

哪些人应该有项目X的权限?项目的不同职责的成员权限都一样吗?比如运维和开发是不是应该权限不一样?

是的,这些问题非常常见,你也可能遇到过这样的困扰。 我们需要一种高效的资源管理方法来帮助我们解决这些问题。

阿里云的资源组正是这样一款产品,它提供了一种资源分组管理的机制,解决单个阿里云账号内的资源分组和授权管理的复杂性问题。

对于采用项目管理方式的企业,可以根据资源归属的项目,将资源进行分组,并给项目成员授予对应资源组的权限。 当然,资源组的划分可以根据企业管理的需要进行灵活划分。可以根据项目划分,也可以应用+环境进行划分,或者按部门或业务划分等。

针对单账号多资源组的模式,云监控通过资源组和应用分组打通的方式,可以自动的为每个资源组自动创建对应的应用分组,并且这个应用分组只有授权了资源组权限的RAM子账号才能访问,有权限的RAM子账号,可以查看分组里的资源,资源的水位和负载,可以创建针对这些资源的报警。

可以轻松实现对资源分组的监控管理。

同时,企业云监控也提供了资源组视角的监控大盘,可以提供资源组维度的聚合视角;比如,资源组的资源数据,最大负载,平均负载等。

另外,企业云监控还提供了资源组维度的水位评估报告,可以查看资源组角度的负载对比分析。可以从整体视角查看所有资源组的资源数量分组以及负载情况报告。

后面大盘和水位报告的片子还会继续提到。 

总之,基于资源组+应用分组打通的方式, 可以为客户提供资源分组的监管控能力。更好的企业客户单账号下海量规模资源监控管理的需求。

企业云监控-企业上云的基础监控解决方案

基于应用分组的海量资源监控解决方案

在这里,介绍一下大规模资源监控的最佳实践:

在海量资源规模的背景下,用户往往面临这些资源如何快速监控的问题,

基于云监控的应用分组,可以轻松的满足大规模资源监控的需求。

云监控的应用分组提供了灵活而强大的资源分组能力。可以按资源组,按标签,按资源名称模糊匹配等方式,快速创建动态分组,分组和报警模板结合,可以快速完成大规模资源监控的覆盖,同时通过黑名单策略,可以排除某些不需要监控的资源,比如TEST相关的资源等。

基于动态分组,当用户新增资源,释放资源,变更资源时,不需要手动的维护其所对应的监控规则。大大提升监控管理的效率。

可以使用户能够在上云初期,快速上手,高效的完成业务上云后的监控覆盖问题,从而更放心的用好云。

如果应用分组是通过资源组方式创建,还可以完美继承子账号的资源组权限,满足分组隔离监控管理的场景。

同时, 云监控也提供了全局的报警能力, 如一键报警, 用户维度报警等功能, 可以让新用户上云后, 傻瓜式的快速添加资源监控,大大的提升效率。

钱大妈:

基于资源组和标签,建议动态应用分组,结合报警模板和报警黑名单策略,实现规模化与个性化监控。

企业云监控-企业上云的基础监控解决方案

多云混合云场景

 企业客户上云的另一个场景是,多云混合云。根据Gartner的报告:有超过81%企业选择多云和混合云,避免锁定和使用一个云服务。从经济和稳定性的角度,多云混合云都是对企业更优先的选择。

在这个背景下,自然就衍生出多云混合云打通一体化监控的诉求。我们也梳理了客户打通各种场景。

。。。。。。

总结起来就是,用户有把报警系统集成上云和数据集成上云的两大场景中的多个细分子场景,

针对报警集成上云云监控提供了报警webhook,可以方便的把线下的报警信息集成到云上。

针对数据集成上云的场景,云监控通过ArgusAgent将线下的数据转换为Promehteus指标,集成到云监控中进行统一展示和统一报警。

也有相当的客户,希望将云上的数据或报警,集成到云下系统或三方监控运维系统中去,那云监控也持开放态度,提供了包括,报警webhook,数据查询api,数据导出api等多种功能于一体的开放能力。 以满足客户的诉求,提升体验。二方系统中,arms和sls都分别提供了集成云监控的功能。很好的满足了企业客户的不同的监控诉求。

至于三方云厂商的集成,道理上是一样,即支持把三方云厂商的数据集成到阿里,也支持开放。

稍微说一下,云监控原来提供的MetricListMetricLas是查询api,面向的是ondemand的是查询场景,不支持高并发的qps,不能很好的支持全量监控数据实时导出等场景。

基于此,我们在企业云监控中,提供了实时数据导出服务,提供了类似实时消费的Api,来更好的满足多云混合云一体化监控的场景。

毕竟,重要是的客户的体验,避免形态数据孤岛。

企业云监控-企业上云的基础监控解决方案 

基础+应用+业务一栈式监控

通常来说,企业客户还有另外一个要求,就是需要一套系统满足基础,应用,业务,体验的多层次监控。

在企业云监控中,我们重新整合原来的sls日志监控和自定义监控,形成了一套包括:sls日志,本地日志,本地Promethesu,本地自定义监控等功能于一体的业务监控功能。

企业云监控-企业上云的基础监控解决方案

结合原有的基础监控,应用监控,形成一栈式的监控能力。

云监控新版本的业务监控具有以下特点:

  1. 本地日志监控:不收集全量日志,只收集指标,可以较大幅度的降低成本,这个功能类似于集团的sunfire。用过的同学应该比较熟悉。
  2. 增强了SlS日志监控:支持跨logstore,跨reigon聚合指标,
  3. Prometheus指标: 基于应用分组自动发现,只需ArgusAgent,无需安装其他组件,可以满足自定义指标,结合Prometheusexporter,也可以满足JVM,spring,nginx,tomcat等常见中间件的监控。以及线下mysql,redis等中间件的监控。
  4. 增强了自定义监控功能:依然通过CLI或SDK上报,支持prometheus协议,支持PromQL报警,简单灵活
  5. 所有指标都支持Grafana统一展示
  6. 所有指标都支持PromQL统一报警

这里是一个关于使用如何监控JVM|Tomcat|Spring|nginx|redis|mysq等组件的最佳实践,可以参考一下

https://yuque.antfin.com/docs/share/ce2864d2-d7e9-4492-a951-11cd90a440cc?#

小结,云监控的业务监控:灵活易用,功能强大,成本更优。

大促护航Grafana大屏

企业的另一个常见的运维监控场景是大促护航,

企业云监控也推出支持Promehteus协议的数据源,以及托管的Grafana,这个数据源支持将云监控直接开放为一个promethesu数据源,通过互联网或vpc网络,对接到线下grafana等展示系统中。

正是以这个数据源为核心,我们支持将云产品的数据,业务监控的数据,来自线下的数据以及其他云和跨账号的数据有统一汇集。有效支撑了多云混合云多账号统一大盘展示的需求。

同时呢,这个数据源的云产品监控数据,我们也补充了丰富的维度,提升了数据精度,支持部分产品秒级监控数据。

同时我们也提供了大量的系统预置大盘,比如,跨集群的容器监控大盘, 跨reigon跨账号的rds监控大盘,  汇总公网流量的EIP和ECS大盘等。也提供了通过指定业务标签,可以一键生成面向业务视角的监控护航大盘。大大降低了客户和TAM护航同学,配置护航大盘的难度。

目前为止,已经有近千个不同行业的企业客户使用了这个功能。

企业云监控-企业上云的基础监控解决方案

资源优化需求

前面反复提到了,今天企业客户,通常都有大量的资源规模,上云后的一个重要特征是,借助云的极致弹性,客户户获得资源有了极大的便利,这让用户可以轻松获得海量资源,比如,钉钉在疫情期间直播,很快资源规模就达到了10万级,不出意外,这里面存在大量的资源浪费,资源闲置。

在疫情的大背景下,大量客户都在降本增效,这两年客户对于成本和效率明显更为关注,客户希望了解所拥有的多资源的全面信息。希望了解哪些资源空闲,哪些资源紧张,客户的资源水位,跟同行业或业界相比如何。或者业界的大致水位是什么样的。以在成本和效率之间获得更好的平衡。

云监控跟算法团队合作,在去年推出了企业资源水位报告功能,可以统计分析客户每一个资源的资源水位,包括最大最小平均P900599等,并提供了按产品,按业务,按资源组等多维度的统计,可以帮客户全面了解不同资源,不同业务的运行水位情况。并且通过智能算法,形成多维度的资源水位雷达图,行业对比等丰富的分析报告,让客户全面了解名下资源的整体情况。

当前,该报告可以支持按天,按周按月的统计,比如每周生成一份报告。并且过往的历史报告会保存下来,从而形成跨年度的,资源保有数量趋势,资源水位趋势,报警量趋势等。这样,客户可以获得更全面的资源分析报告。

用户可以从云监控新版控制台》企业云监控》资源水位报告页面进入, 生成报告。

企业云监控-企业上云的基础监控解决方案

网站监控与拨测

除了上述基础设施监控 场景外,部分客户还对外提供服务,希望能够监控其服务的稳定性,比如,客户希望了解不同地域运营商网络的客户,到自己网站的访问延迟情况,成功率情况,希望及时发现,自己网站域名在不同地域的的可访问情况,希望在域名劫持时,可以提早发现,

跨国业务的公司,也希望能够了解业务全球访问情况,比如,某个客户的eip,在欧洲是否可达,在澳洲是否可访问。从其他三方云厂商的网络,是否可访问。

云监控在原站点监控的基础上, 推进了网络分析与监控服务,提供了全国覆盖的运营商探测点,以及海外各主流云厂商的探测点,可以为客户提供多协议的,  覆盖全国,以及全球的网络可达性监测和分析。

企业云监控-企业上云的基础监控解决方案

在过去的几年里,网站监控发现了大量的运营商网络的问题,cdn的性能问题等。

最近的一次,是某客户反馈使用我们的CDN网络不稳定,TSL握手时间相比友商较差, 经过反复的排查后,最后终于发现了cdn使用tengine的LUA模块有偶尔的GC时间垞问题。优化后,也是提升我们cdn产品的体验。

另外,我们负责售后和工单的同学,也经常会碰到这样的问题,客户反馈网络有问题,我们这边排查没有问题,需要经过双方反复的抓包,核对,通常一个问题需要好几周的排查,大部分问题也还是石沉大海了,没有结果。

在云监控的网站监控中,我们提供了点对点的网络问题排查功能,可以在探测发现问题,手动发起点对点的tracerotue,mtr,拿到结果后,再进行问题反馈,可以大大提升问题排查效率和成功率。也可以降低客户提工单的比例。

企业云监控-企业上云的基础监控解决方案

网站监控最佳实践

在前面介绍了网站监控与分析这个产品的主要功能, 网络分析与监控主要面向外网可用户性,  下面我们来看一下, 部分使用云监控可用性监控(应用分组)+网络分析与监控(原站点监控),相结合, 可以实现内外网结合的可用性监测。

同时,可用性监控和网站监控的探测结果数据,也支持汇集到企业云监控里, 可以形成更全面的稳定性大盘。

比如某头部餐饮行业,几千个门店的可用性探测结果,汇集在一起,在企业云监控中,形成了全局性的稳定性大盘。极大的降低了监控运维方面的支出,也极大的提升了面对复杂形态的下的监控管理的效率。

云监控整体大图

最后,我们来整体看一下,目前云监控整体功能大图。企业云监控-企业上云的基础监控解决方案

最后,总结一下,

企业云监控-企业上云的基础监控解决方案

云监控致力于让客户用好云,

云监控是客户上云后的监控基础设施,既有开箱即用,功能灵活而强大,同时又是开放的,可以跟很容易的其他二方三方监控系统融合。

云监控提供了从基础到应用到业务到分配给其他的一体化监控能力。可以为客户提供一个不错选择。 

云监控支持混合云,多云,多账号等企业场景,可以让企业客户上云后,更好的用好云,上云更放心。

上一篇:Tag-使用监控的新姿势


下一篇:[云监控]AE3-Script脚本引擎进阶