#运维# #财经# #程序员#
要说最近火爆朋友圈的游戏,《羊了个羊》肯定榜上有名。自9月中旬以来,该游戏频频冲上微博热搜榜第一,怎么通关一度成为人们茶余饭后的热议话题。
作为一款突然爆火的游戏,自然也少不了突发情况。这不,因访问量激增,《羊了个羊》服务器喜提宕机3次,其他异常多次。惹得 友纷纷在官方微博下面“骂骂咧咧”,调侃这游戏应改名为《崩了个崩》,每天一崩,十分稳定。后面甚至炸出了一位来自阿里的大佬扬言要帮忙review一下代码。
迫于无奈,羊了个羊发布了“急招后端服务器开发,推荐入职的奖励五千,自荐入职的奖金五千”的博文。尽管评论区依旧少不了调侃,但从中也不难看出运维对系统运行的重要性。
一、如何让系统自动自动排除故障
其实一线运维工作中,除了像“羊了个羊”那样的服务器宕机让人猝不及防外,因IT系统发生故障而引发的海量告警也让人崩溃。
正如运维人员所知,每有问题发生的时候,系统往往会密集发出多个告警。当告警风暴来袭的时候,传统的处置方式是运维人员使用过往经验来判断问题的影响范围和严重性,再通过人工分辨属于哪个部门管辖的问题,进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了,那现在我们可以如何响应呢?
#01
我们可以针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。原始告警信息之间,很多是有关联的同类告警。告警收敛功能通过聚类算法对信息降噪,通常收敛后的有效告警信息会低于原始信息的10%(即告警收敛率大于90%)。
#02
AI算法为每条告警赋熵值并排出“严重”“紧急”“普通”等级别,便于运维人员迅速找出重要度高的信息进行根因探查。
当告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;
而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。
这么做是因为有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。
二、夏洛克告警辨析中心4.0——智能驱动的数字化告警平台
作为擎创自主研发的新一代智能告警管理、分析及处置平台,它能通过智能化引擎的分析处理,结合过滤、分类、压缩等多个步骤,帮助客户有效提高运维效率,减少企业运行成本。该平台具有集中治理,智能检测,综合复盘,全链路分析,大规模能力五大特性,同时在各个部分又体现了其分析和智能化能力,如下图所示。
三、夏洛克告警辨析平台关键功能
01.噪音过滤
强大的开箱机器学习能力,对来自各个源端的实时告警进行高效地流式压缩,压缩率可高达95%以上。
即它可以实现将同一个监控源、同一告警对象、同一指标在单位时间内产生的多次源监控系统的原始告警进行去重并压缩成同一个告警。
其次,一个指标的告警可能会导致相关组件的指标发生异常,有经验的领域专家是知道其不同技术组件的时序指标的相关性的,由于描述的都是同一个问题所引起的告警,因此我们可以对其进行告警关联合并为一个alert Group进行处理,以达到进一步压缩降噪之目的,并实现业务的全面可观测性。
02.信息丰富
通过三方系统或者CMDB对告警信息按需丰富,将更多的有价值信息融合到告警中,为智能化处理做好铺垫。
通过批量、API、手工导入的外部丰富数据及擎创告警产品提供的丰富表策略来对告警信息进行丰富处理,如上图所示我们将云管理平台的“云主机IP及HOSTNAME映射”关系每小时同步给擎创告警辨析中心,
告警辨析中心接收到告警之后通过IP地址到“云主机IP及HOSTNAME映射”中动态查询故障时点云主机IP地址所对应的真实主机名称(CMDB中唯的配置项ID),以丰富到告警中,以便后续对告警进行处理。
03.规范标准
规范化是智能化处置的初级阶段,标准化动作确保了对后续告警信息的理解一致。
04.特征分析
强大的机器学习能力,对每类告警特征进行提取、解读,通过对其历史特征进行标签化和量化,让复杂的算法变得简单清晰且易用。
05.语义分类
利用NLP技术,提升引擎思考能力,使得语义发挥其潜在的价值。
06.知识沉淀
帮助企业轻松有序、精准有效地构建属于企业自己的告警知识库,为后续故障的排查、处置提供参考和指导。
总的来说,擎创告警辨析中心产品可配置能力更成熟,具有更开放的集成能力,可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成,并驱动整个数据中心运维体系更快、更智能、更流畅运行。其中智能压缩及降噪功能,更具智能化,不仅可以满足科技能力及数据治理较强的企业需求,同时也可以通过智能化手段满足科技及数据治理较差企业的需求。
? 关于擎创 ?
擎创科技,成立于2016年,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。自主研发的擎创夏洛克AIOps智慧运营平台,为企业IT运维提供了全局的智能可观测能力。整合告警、监控指标、日志、追踪等多维数据,实现精准告警、故障关联、日志聚类、交易多维分析、根因定位等场景功能,助力企业数字化业务高效、稳定和顺畅运行。
? 行业龙头客户的共同选择 ?
目前客户已覆盖金融、制造、能源交通等行业的标杆企业,包括银联、交行、人行清算中心、多家头部城市商业银行、省级农信 /农商行、上证所、中国邮政、宝马、中石化金山石化等。
更多运维思路和案例我们将持续更新,敬请期待~
关注我们,更新不迷路~
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!