ELK告警插件-elastalert2 实践,支持elk8.0版本,企微机器人告警实现

最近刚把生产的ELK搭建完成,前面文章也有介绍,然后就在思考把日志监控告警也做起来,因为人力问题,既要处理生产问题,又要做一些日常运维工作,所以日志监控的调研和完成就放在周末来做了。

基本就是从0到1的建设吧,之前在建设elk的时候,其实也有考虑过,后续的日志监控要怎么做,本来最初的想法是自己去写,但是时间来不及,也没有那么多的精力去做这些事。

在很早之前的话,是有用过一些插件的,elasticalert,sentinl,前者的话,很早之前就不更新了,后者的话,目前也是只支持到7版本,所以就看到了elastalert2,看了下最新的更新是在近期,而且文档也很完善,虽然都是英文。

elastalert2参考资料:

这个插件的话,是支持docker部署及k8上部署的,相关的docker file及helm文件都有提供,基本是开箱即用了。

我这里是直接用本地python起的,有docker或者k8需求的,可以自己去看下。

所需软件及版本:

安装python的话,这里就不细讲了

安装步骤:

两个配置文件:

一个是基础配置,在examples下面有基础配置

然后就是告警规则的配置了

默认是在examples下面的rules文件夹下,已经有蛮多的基础配置了,可以根据需要去配置,我这里配置了一个frequency类型的作为测试。

frequency这种类型的话,更符合日常的一个告警措施,可以根据时间范围内,出现的次数进行预警。

支持蛮多的告警途径,可以看下官方的介绍,我这里用到的是post途径,然后对数据进行处理,通过企微机器人进行告警,之前的prometheus也是通过这个告警的,数据格式不同,做了下处理。

支持的告警途径:

关于rule的配置可以看下:

在启动之前,需要做一个index的初始化,直接执行:

如果开了鉴权的,也可以做个测试,是否可以连通elasticsearch/p>

rule配置文件准备好的,也可以做个测试,检测配置文件是否正常

通过如下命令可以完成:

其实在最开始我测试的时候,一直 0hit,其实是索引配置的有点问题,可以自己去多测试几次。

就是这个问题,不过这个回答,也只是建议

当你加了–alert去测试的时候,如果有匹配到的,那么就可以触发告警了,类似这样

企微机器人上实际的效果是这样的:

当然了,告警里面的一些字段的话,可以自己去定义,这个只是一个初版,整个路走通了。

后面的话,可能就是具体的一些日志关键字,增加告警恢复的策略等,后面有时间的话,再来更新下。

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8665 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年5月22日
下一篇 2022年5月22日

相关推荐