欢迎来到 广州仪安电子有限公司 官方网站!

Aug 12, 2024 阅读量:1556

监控建设的实践-纸上得来终觉浅

监控建设的实践-纸上得来终觉浅

在建设监控系统的时候,我们清楚以上的问题所在,那么,我们是如何解决以上这些问题的呢?下面,我们来详细看看具体的实践。


1. 降低使用门槛-开箱即用


对于服务器设备,系统初始化后,默认就安装了Agent,无需任何配置,就可以采集到主机监控数据,如在CMDB中配置了进程信息,则会采集进程状态数据。


2. 和告警风暴说再见


当主机默认接入后,即可自动添加默认告警策略,如达到阈值,即可产生告警,如下所示,是一些默认告警策略。


为了防止告警过多对用户造成干扰 ,我们使用了四大锦囊法宝,确保用户收到的告警是有效的。


锦囊一-告警收敛。如下所示的事件中,可以看到收敛规则有效减少了告警事件收敛,产生的事件和通知比例1:100,甚至更高。从设计上原生支持的告警收敛功能,有效阻止了告警风暴产生。


锦囊二-告警抑制。通常,由于用户不同的实际需求,会对同一告警内容配置不同的阈值。比如配置磁盘空间使用率告警,有80%预警,90%警告,95%严重,那么这3条策略如何工作呢?假如当前磁盘空间使用率已经达到96%,是产生3条告警通知吗?实际情况中,如果监控系统产生了3条告警,那这个监控系统就会被用户认为是智障了。所以,对于同纬度的策略,我们只会发送告警级别的告警,即只会产生95%严重级别的告警通知。


锦囊三-告警汇总。既使我们的监控系统已经有了告警收敛,告警抑制这两大功能,我们依然不能解决同一时间发送大量告警问题,比如多条告警规则同时满足,那么还是可能产生告警洪水风暴问题。因此,对于告警汇总功能,实在是有必要。对于同一时候涌入的大量告警,对于同维度的告警进行汇总,对于不同策略,则进行合并告警。有了告警汇总功能,我们就可以放心接收告警了。


锦囊四-告警分析。通过对历史告警数据的挖掘分析,我们还可以找到异常告警,以便更好的分析原始数据和告警阈值,从而为告警配置和无阈值告警提供更好的数据支撑。


3. 功能扩展容易-即插即用


4. 用户权限控制-按需授权


按监控提供的功能进行查看和管理两种基本的划分,一般来说有如下几个用户场景:


告警通知的接收者:如运维,开发,测试,产品等。适用申请查看类和屏蔽类操作。

监控的配置者:如运维。适用于申请查看+管理类操作。

监控平台的管理者:适用于全局的功能。


5. 自动化筑基石-效率优先


有别于其他的监控系统,定义采集,直接在系统中就可以完成,无需使用其他第三方控制系统或者登录服务器部署。所有的配置都能够在界面上完成,包括插件编写,我们只需要打开页面制作插件即可。


动态采集目标,当模块中的主机有增加或减少的时候,可以自动下发插件到目标机器,而无法人工部署采集插件。


同理,告警策略中的目标范围也是自动匹配,而不用对新增加的主机或模块进行策略编辑,范围自动生效。


五、 监控建设的总结-身经百战忆往昔


在监控平台的建设过程中,经过不断实践,不断总结经验,监控平台建设的功能会逐步成熟,但是,如果只把监控平台当做核心目标来建设,会遇到非监控本身的问题,比如怎么将发布和监控结合,如何在发布期间屏蔽告警。如何让监控联动CMDB,怎么打通监控系统和运维自动化系统,怎么打通监控与流水线发布系统,怎么打通监控和运维的各个环节?这个问题,不是独立的一个监控系统能解决的,而是需要一个可扩展的可定制的运维平台才能解决的。

上篇
监控建设的挑战-吾将上下而求索
下篇
物联网智能安防监控功能