南京音乐推荐联合社

灵犀:企业监控为什么光有Zabbix是不够的?

高效运维 2019-05-14 16:21:45

作者简介

魏伟

人称魏总管,曾任职百度多年,据称为最牛硬件工程师、服务器整体研发当家人,曾一手推出全球首款arm服务器,震惊业界。

其操刀打造的智能IDC项目,是大数据在运维领域的首次应用,并且成功部署于几十万台机群,带来巨大收益。后就职金山云负责整体运维,现为灵犀联合创始人。

正文

Zabbix是大家喜闻乐见的监控工具,可很多朋友也饱受告警设置及报警风暴之苦。我曾经有过几十万台服务器的运维经验,在这些方面也有较多经验,本文侧重分析Zabbix告警的相关问题,并给出一种快速解决方案:

  1. 邮件报警配置复杂,多了没人看;

  2. 短信报警流程复杂,短信容易被延迟或漏发;

  3. 电话报警配置太麻烦,需要二次开发;

  4. 报警风暴令人苦恼不堪。

1、什么是Zabbix?

Zabbix是一个开源、高度集成的监控解决方案。以图形化展示和操作界面,提供了针对各种IT系统的系统参数、网络参数的分布式监控及告警,让系统管理员能够快速感知、定位、解决IT系统问题。

虽然只支持普通的报警方式。

2、为什么需要Zabbix?

首先,业务规模稍微大一些的公司,都需要监控。

当公司从一个几人、十几人的小公司,发展成一个几百上千人规模的中、大型公司,公司的业务规模也处于不断增长,服务器从几台发展到几百几千台。这个时候,IT系统出现故障的几率就会大大的增大,影响程度也更加严重。

可能只是几分钟的宕机,就会给公司带来几十万、几百万的损失。

如果这个时候,领导问“为何某个服务不可用、为何系统会出现故障”,而你却不能及时确定故障的根源并提供解决方案时,工作一定会受到领导的质疑和挑战。

而监控系统,就是为了解决这些问题。

它能够让运维人员快速知晓系统的运行状况,并在出现问题时甚至在出现问题前,及时感知到问题的存在,通过提前处理或实施预案,解决或避免问题的出现,并且尽快进行处理。

其次,无论是在安装还是在使用上,Zabbix都是一款远胜其他同类产品的监控工具:

  1. 安装与配置非常简单,学习成本低;

  2. 支持多语言(包括中文);

  3. 免费开源,维护志愿者众多;

  4. 具有node、proxy两种模式,非常适合构建分布式监控系统;

  5. 企业实现自动化运维的必然之选:能自动发现服务器和网络设备、自动注册主机、自动添加模板及分组;

  6. 支持多种监控方式,适应复杂企业IT环境。

3、 Zabbix真的那么受关注?

根据“百度指数”中Zabbix、Falcon和Nagios最近半年的指数趋势(下图),Zabbix的受关注程度,一直处于非常稳定并且长期持续的状态。

4、 Zabbix告警配置很烦人?

随机选择今年1月份的一周(1.04-1.10),如下图。

从这个数据来看,确实,Zabbix报警依然困扰着大家(当然,Zabbix相关中文文档的翻译需求,也是类似)。

而这些,也正是企业选用Zabbix作为监控工具时,可能遇到的问题:

Zabbix的告警配置相当复杂,并且没有详尽的中文翻译资料,以帮助解决这个问题。

5、如何解决Zabbix告警配置的问题?

Zabbix监控再好,也必须能在最快的时间将故障信息推送给对应的人,才能真正将监控的价值最大化。

但可惜的是,Zabbix的报警机制过于复杂,难以与公司的实际场景结合,达成“优化整个团队的故障监控和处理效率”的目的。

1. 告警通道配置太繁琐

邮件报警:如需配置邮件报警,就得在Zabbix里配置邮件调用接口。并且Zabbix邮件报警经常发生延迟(Zabbix自身延迟+邮件服务商延迟),更悲催的是,报警邮件往往没人看。

仅凭这一点,想要“解放运维人员、不再24小时盯着监控大屏幕”,就已基本梦碎。

短信报警:如需配置短信报警,就需要向短信服务商购买短信服务。

  • 签订合同、定期购买短信数量、设定短信模板、在Zabbix配置短信调用接口;

  • 经常从短信服务商那边索取回执报告并作对比,以避免被“糊弄”;

  • 需配置多个短信服务商,以避免某个短信服务商短信延迟或漏发。

电话报警:电话报警,是为了保证在深夜,把运维人员弄醒,及时解决紧急故障。比起短信,电话的提醒效果肯定更好。但电话报警更加繁琐,而且往往需要二次开发。

配置短信的痛还没消,你真的还要再找一次虐?

微信报警:配置微信报警,需要申请开通微信的相关服务,然后排期进行针对性开发。

  • 首先,微信的订阅号、服务号、企业号,其消息推送限制、消息内容限制、认证前后的人数限制都是不同的 ,真的能分的那么清楚?

  • 其次,如果发生报警风暴,确定你的小心脏接受得了微信里突然多出来的成百上千条报警提示?

2)告警风暴的痛,Zabbix不够懂!

Zabbix的报警配置很复杂,并且没有中文文档可供参考;Zabbix的报警合并机制不够高效,不符合实际运维场景。

可是,大部分运维人员只能硬着头皮上,配一个User组、一个Trigger就了事。

无论是邮件报警、短信报警或微信报警,都会存在告警风暴的问题:如果发现类似断网等大面积故障,而且没有告警保护和收敛机制的话。

邮件被充爆、手机收件箱被报警短信爆满、手机连续响1个小时。

批量删除?那也要拖滚动条拖个几十秒啊!这种痛,复杂的Zabbix,真的不够懂。

其实,大家的要求很简单:只是想要一个足够友好、简单易懂、支持自定义又有默认设置的人性化报警机制。

3)只想团队高效协作,别老是全体出动!

可否实现一个报警升级机制?而不是一旦产生报警,立即全员通知。我们真的没有那么闲啊:

  • 短信和电话,真的也是要付费的。

  • 普通、通知级别的报警,让刚来的运维小白看看可否?

  • 严重级别和灾难级别的报警,先发给一级,一级响应不及再升级,而不是直接“捅给”老大好不?

灵犀,负责解决您的这些问题!

灵犀(linkedsee)旨在成为客户一站式混合IT运营管理专家,核心成员来自原百度系统部。创始人@朱品燕同学曾致力于百度多年,其离职网文《IT狗,离开百度,你还是什么?》曾一度引起轰动。

灵犀作为Zabbix后服务专家,负责:

  • 快速高效接入:10分钟内完成接入,瞬间拥有四大通道、多个主备服务商。

  • 消灭告警风暴:默认恢复自动合并、相同报警自动合并,支持自定义合并。

  • 专人客服值守:普通级别专人轮流值班,严重级别轮循升级通知、处理。

不仅仅这样,灵犀还可:

  • 完美对接工单系统,让Zabbix告警不再石沉大海、无人跟进。

  • 支持Open-falcon及其他自定义监控。

想看看灵犀的真容?

灵活的告警触发策略设定。

丰富的事件处理及统计功能。

方便的监控值班功能。

是不是仅仅看到如此美观大方的网站界面,就已有那么一点点心动??

是的,您现在可以免费使用!

最后也是最重磅的,您可以免费使用灵犀。扫一扫如下二维码即可直接注册享受(也可直接点击文末的“阅读原文”链接)。


每一个Zabbix用户,都需要灵犀。

来自高效运维社区的承诺

高效运维社区和灵犀创始团队有深入的交流,并一致认为,灵犀可以简化您的Zabbix工作、将您从烦恼中解脱出来。

如下微信群由高效运维社区和灵犀团队共同创建,如您有任何疑问或仅仅咨询Zabbix技术问题,将得到官方的快速相应。


说明1:如您未能直接扫码入群,请添加微信号 jia_yanni001 为好友,由美女同学邀请您加入,接头暗号为:灵犀Zabbix技术交流。

说明2:点击下方的“阅读原文”,即可快速消除你的Zabbix烦恼?

Copyright © 南京音乐推荐联合社@2017