众所周知,数据中心的 络设备都是有数量庞大的,只要 络故障时找到故障设备,将其隔离即可恢复业务,然后再去慢慢排查故障原因,但从数百台的设备中找到具体哪台故障绝非易事。 络故障往往先从应用侧得到故障反馈,然后开始排查,这时应用人员往往描述的只是一个应用访问故障现象,他不会告诉你具体哪些地址到哪些地址不通,有时甚至是错误的信息这极大延误了问题定位时长。
络故障如果要从应用侧反馈的故障现象去分析,这时已经晚了,而且容易被应用人员带入误区,有些应用人员反馈的现象只是他自己看到的,现象很可能只是一个局部的、表面的现象,并不能反映出整个 络的故障情况。所以要靠运维人员自己在日常工作中做好记录,当故障出现的时候能够迅速做到从成百上千台设备中准确定位、快速搜索具体某台设备的详细信息,从而迅速发现有故障的设备、解决故障之后分析好总结故障原因避免同样的事件再次发生。
那么如何能够做到快速定位故障,快速解决故障呢?首先,目前的数据中心机房设备与线路的运维管理方式存在以下几个问题:
第一、目前数据中心机房中的 络设备和线路的运维方式大部分依然是采用excel、visio的管理方式,这种运维方式带来的最大问题就是当出现故障的时候查找故障原因以及准确定位有故障的设备和线路速度太慢,如果一根线经过了好几跳,经过了多个设备,那么查看文字的描述势必会耽误时间,而且这一切的前提还得必须是日常运维工作中有准确的记录。
第二、针对大型的数据中心或者是园区里面的建筑群,设备数量是非常庞大的,如果这个时候我们就想查找某台交换机的位置,以及想要查看这台交换机的端口使用情况,端口的流量、端口状态等等信息,通过excel表是非常困难的。小编曾与国内某大型工厂运维人员交流中了解到他们每天光在各个楼之间跑来跑去就已经耗费了大部分精力跟体力,因为他们光一个园区里面的建筑跟厂房就十几栋。数据中心也许会好一些,运维人员每天至少都是在同一个楼里面跑来跑去,机房相对来说比较集中,如果是工厂园区或者是建筑群那么对于 络运维人员来说就太痛苦了,他门迫切需要一种新的运维工具来代替这种纯体力查找设备的劳动。
Nvisual综合布线可视化管理软件在机房设备与线路快速查找和定位中目前能够实现几下功能:
(1)通过故障设备和线路的任意属性可以快速定位此设备在机房或者建筑群中的位置、进而还能够看到设备的样子、设备的端口占用情况、这台设备与其他设备的连接关系、设备还有多少空闲端口可用,减少资源浪费,节省运维成本。
(2)数据中心机房中的IT设备通常包括服务器、路由器、交换机、配线架等等,运维人员如果想看某种类型的设备在所有机房中一共有多少、分别位于什么位置的时候可以通过Nvisual综合布线可视化管理软件实现统计功能,掌握资产信息。
(3)企业领导关心的 表功能在Nvisual综合布线可视化管理软件中也能呈现出各种各样的 表。例如:交换机、服务器等设备今年的采购量是多少?哪个品牌的采购较多?园区光缆的芯数使用情况?有了以上数据就能分析下一年度设备和线缆的预算应该申请多少、方便资源的统筹规划、提高运维效率。
(4)从不同维度查看机房容量、机柜容量、设备端口容量。如果是从空间使用情况查看机房容量,那么下一批设备运维人员就可以知道相应的应该放在哪个模块机房更合适。同时还可以看到某台机柜中都装了哪些设备,这些设备都位于哪个U位、设备的属性信息、关于Nvisual综合布线可视化管理软件的设备属性我们可以把它理解为可视化的CMDB。
(5)可以查看园区中管井的数量跟位置、管井中有多少光缆、每条光缆的路由、光缆的芯数、每芯光缆的使用状态、每芯光缆的使用单位跟类型等等信息
在之前的文章中小编也曾经提到过频繁进出机房不仅对运维人员的身体健康有所影响,而且数据中心中大部分故障都是人为引起,减少人员频繁进出机房不仅是节省了工作量而且避免了很多不必要的故障发生。未来运维人员的工作也许就是通过有效的工具来进行汇总跟分析数据。具体的设备上下架、变更跳线等工作都会交给机器人来做,当然距离实现这个愿景还会有一段时间,但小编认为时间也不会太长,利用这段时间运维人员的思维跟技能要做好转变,接受新事物,学习新工具、否则等时代发生变化的时候再去学习也许就已经晚了。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!