在当今这个数字化时代,企业依赖于强大的IT基础设施来支持其日常运营。然而,随着技术的发展,IT环境变得越来越复杂,这就要求企业必须拥有一个可靠的监控解决方案来确保一切运行顺畅。最近,我有机会体验了一款市面上比较火的IT监控产品——乐维监控,它极大地改善了我对国产IT监控产品的认知。
简介
乐维监控是一款提供IT基础设施实时监控、智能告警、故障诊断及自愈、业务服务等一站式运维管理平台,并且兼容zabbix、prometheus等开源技术栈,
注册下载地址:https://channel.lwops.cn/backend_api/door/verification/channel?c=1wPDhaDT
一、初次印象:直观而强大的界面
首先,乐维监控提供了一个结构清晰、内容简洁的首页。页面左侧是产品功能菜单,包括首页、运维驾驶舱、告警管理、综合监控、业务服务、网络拓扑、可视化管理、知识库等。右侧是整体的监控概况与监控重点,其中监控概况依资源类型分类,可以清晰的看到资源种类、数量、告警级别与数量,监控重点包括CPU、内存等使用TOP5情况,所有的监控数据都被组织得井井有条,让用户能够快速获取所需信息。即便是一个新接手运维工作的新人,通过首页也可以对系统整体状况有一个初步的了解。
如果说对纯数据无感,那么接下来的运维驾驶舱将在提供统计数据的同时给人带来视觉上的享受。酷炫的3D行星动效将科技感直接拉满,同时提供了监控概况、告警情况、系统负载、各类TOP指标等整体及重点监控信息。
二、深入体验:6个重点功能模块
1、告警管理
在乐维监控中,告警管理被细分为实时告警、全部告警、告警统计、通知配置、告警转工单、故障自愈、通知记录等功能模块。每个功能模块都预设了多种标签筛选方式,用户可以快速筛选出自己想要的告警信息展示。
实时告警:实时告警展示了最新的告警信息,便于运维人员快速响应新近发生的故障与异常,特别是对于紧急与重要告警,实时告警通知可谓至关重要。
全部告警:全部告警对不同的告警类型做了标签,比如未恢复未确认告警、未恢复已确认告警、全部告警,可通过标签过滤出用户比较关注未恢复的告警;右边显示的表格包含的属性有告警级别、告警标题、对象类型、对象名称、知识库、告警时间和告警时长。例如,当运维人员想筛选出未恢复未确认的紧急告警信息,通过两个标签就可以过滤出来。
告警统计:包括分析、触发器告警TOPN、对象告警TOPN、恢复告警时长TOPN、未恢复告警时长TOPN标签。告警统计对于告警的运营管理很有意义,在分析部分,通过选择时间段,显示告警总数、已关闭告警数、未关闭告警数等信息。告警级别分布通过饼状图能很好的展现,告警趋势也能看出不同级别告警随着时间的实际变化。
通知规则与通知纪录:用户可根据工作重点进行自定义配置通知规则;通知纪录这里主要是审计作用,避免故障处理不及时带来相互推诿的情况。
故障自愈:在整个监控平台中,故障自愈是为数不多需要码代码的应用模块。对于一些相对简单的重复性工作,用户通过配置脚本进行自动化处理,有效提高维护效率。
2、综合监控
综合监控也是乐维监控的核心功能模块,它是乐维监控监控能力的核心体现。支持探测、操作系统、数据库、中间件、网络设备、服务器、存储、链路、虚拟化、云平台、容器、物联网等资源类型的监控,同时监控指标也很丰富,小功能小细节用户体验较好,在监控能力方面没有死角与短板。
3、业务服务
业务服务是乐维监控的一个比较特色的功能模块,在运维监控系统中比较少见。它的核心是业务拓扑,就是它可以自动发现业务背后的资源依赖关系并生成业务拓扑图,比如说企业的CRM系统需要依赖的服务器、数据库等,都能识别出来,业务拓扑关联告警异常显示,可以快速找到故障点所在。此外,比较有意思的还有业务容量、指标分析、应用进程、业务大屏、业务巡检等。例如通过业务容量可以看到业务资源是否接近性能瓶颈,是需要进行扩容还是资源回收。
4、网络拓扑
网络拓扑关联故障告警,通过网络拓扑可以很直观的看到网络故障节点及其影响范围。值得注意的是网络拓扑支持自动发现与自动生成,同时支持多层级展示。对于网络资源规模较大的企业而言,网络拓扑自动发现与生成将大大提高处理效率。
5、可视化管理
可视化管理主要是一些可视化大屏,可以轮播展示重点信息,为运维决策提供支撑。
6、知识库
分为知识门户、共享知识、我的知识和知识审核四个部分。知识门户展示知识库整体概况,用户也可以通过门户搜索查找方案知识。共享知识与我的知识是一些用户上传内容,便于方案复用。知识审核,顾名思义,即对运维人员上传的方案知识进行审核,确保方案合规与有效性。
7、报表管理
对于每个产品,开发完、能运维并不是结束,还要可运营,报表就可以起这方面作用。例如,报表数据支持导出功能,向领导汇报工作不可能把监控系统展示给领导,但是可以把数据导出报表进行汇报,如把目前资源使用率的比较高的展现出来。
乐维监控提供了实时报表、TOPN报表、流量报表、日报周报、主机性能报表、图形报表等子功能模块,报表功能比较成熟与强大。
Lerwee AI
此外,比较令人惊喜的是,以ChatGPT为代表的人工智能方兴未艾之际,乐维在以人工智能赋能运维方面布局也有了初步成果。在体验乐维智能监控平台的同时也顺带体验了乐维的新品——Lerwee AI,智能运维助理。通过对接乐维的运维产品,用户可以像ChatGPT一样以对话的交互方式获取系统信息、生成工单等。基于平台,不止于平台;也许不久的将来,IT运维将会摆脱平台交互界面,完全通过AI进行交互,实现“不见平台,只见AI”,可能这就是人工智能的魅力。
以上就是我在看过乐维智能监控平台的心得体会。整体感受上,乐维监控功能非常齐全与成熟,足以满足绝大多数运维监控场景需求,通过对比以往的国产产品与国外产品,可以比较清晰的感知到国产产品有了长足的进步,Lerwee AI的加持则让乐维监控的前景更令人期待。