Skip to end of metadata
Go to start of metadata

Q1:这条报错什么意思?

A:端口down了。


Q2:字符串类型的值该怎么弄成图标,内存值Value "283.223 MB" of type "string" is not suitable for value type "Numeric (unsigned)"

A:预处理。


Q3:间数据位移了,例如下午4点的数据显示在在早上10点。各位老师有见过这问题吗?

A:确认下时间ntp,时区确认下,正常了之后改了下php.ini里面的时区。


Q4:有人知道这个如果要 设置 晚上10点到凌晨7点如何配置吗?

A:10点到12点 0点到早上7点就好了~


Q5:这是什么?

A:内存用量吧。


Q6:有人遇到过机器网络没问题但是一直告警的问题吗?

A:遇到的所有agent报警的情况有两种:1.全局文件同故障,2.内网时间未同步。看下这台服务器上现在有多少个链接,win08有个bug,服务启动400多天后链接释放会有问题,现象就是会积累一堆链接,会影响zabbix的数据获取,导致断图。如果没关机 端口就不释放,有个补丁程序,可以彻底解决问题,重启前顺便装了,一劳永逸,搜kb2553549


Q7:有人用snmp trap吗?/tmp/zabbix_traps.tmp 中能看到消息了,但是zabbix页面上看不到记录。

A:要配item,刚查了zabbix-server的log消息,不匹配接收。


Q8:echo "db.serverStatus()" | mongo zabbix监控mongo,在mongodb有安全认证的情况下,如何能通过上条命令获得mongo的信息啊?之前从没接触过mongodb。

A:自己认证/mongoexport 了解一下/echo "db.serverStatus()" | mongo admin -u -p就好了。


Q9:发送报警提示的信息都一样是什么原因造成的,没有修改过动作的提示信息?

A:会不会是一个action发给了多个用户,看的用户是不同的。


Q10:配置zabbix4用企业微信报警,执行脚本成功,但zabbix中配置的报警微信收不到报警信息?

A:跟版本没关系,看执行日志/我哪天也是这个问题,最后在动作里面找到了问题。


Q11:我刚刚用windows的sender程序发送命令,汉字就无法识别出来了,是不是windows的agent需要设置一下?

A:不是agent要设置编码,是windows本身的编码,修改当前终端的编码就好,如果是win10可以打开sshd 用xshell连上然后再操作发送。


Q12:我们工控机是win7的系统,不知道支持中文不?

A:Agent内应该不用担心字符集,因为sender实际上是独立于agent的,所以sender测试并不能证明agent运行会用错误的编码集。我的理解是,不论cmd运行的编码集是什么,最后sender都会原样发送。你如果最终是要以sender进行trapper数据发送的话,最好传入utf8编码的内容,虽然gb2312的cmd里没法正确显示,但这样zabbix前端,因为数据库存储的内容是实打实的utf8,就会正常显示了。


Q13. 想问下,超级大量的文本怎么进行存储,用什么方式存储,用数据库的话会有字段大小限制,写入和更新少读取多?

A:以前说过,海量小文件存储是业界大难题,前提是低成本,如何基于 Ceph 攻破海量小文件是存储难题 。如果量级在几十亿以下,对象存储可以,但是再高就得自己定制开发了。


Q14.fastdfs算传统的文件系统么?

A: fastdfs不成, weedfs了解一下,普通的sata 我们都用得挺好磁盘坏了直接换, 不存在数据丢失什么的问题, raid 都不用,你要虚拟机的话,就直接裸盘挂载进去。


Q15. 这种能指定时间段监控的吗?

A:弄个定时任务,这段时间内去日志采集关键词,我看了官网,有个设置,不知道能不能实现。


Q16. agent端运行脚本可以获得值,zbbixget获取不到,除了超时的设置外,还会是什么原因啊?

A:权限/看报错。


Q17. Grafana显示zabbix数据的时候,时间段变大后,显示出来的数据值就会缩小,假如时间段是过去5分钟的时候,a的值为100,但是时间段扩大到过去24小时的时候,a的值就变成了2,这种是什么情况?

A1.:峰值被平均了而已, 粒度变粗了。

A2: grafana别选avg,选current值,这个是管理下面显示的值吧。


Q18. innodb_buffer_pool_size 怎么设置啊?比如每个主机100个监控项,500个主机要设置多大呢?

A.:内存的75%。


Q19. zabbi-proxy 4.0 可以接入 zabbix-server 3.0吗?

A:不可以。


Q20.必须要两者版本匹配吗?如果 zabbix-server4.0 和 zabbix-proxy 3.0可以匹配吗?server版本高对应 proxy低版本可以吗?

A:最好版本一致,不然可能会有各种问题.


Q21. Zabbix3.0的数据库是不是不能直接导入到Zabbix4.0的数据库里?可以实现吗?

A:可以手动升级, 数据库,你先备份吧, 防止升级失败, 升级成功后,数据库是不需要做操作的之前的zabbix-server是用的 源码安装方式的, 而且升级是想用官方的那个操作文档,server 就是向 proxy抽取数据, proxy的数据单向同步到server里这个会导致server的数据库越来越大.


Q22. Zabbix中能否取消guest用户确认告警事件的权限?怎么配置?对主机群组读?想只看到报警。但不能点确认.

A: 配置-动作-你的动作-操作-操作细节-》信息发送到用户.


Q23. 动作里执行远程命令,sudo+脚本。那么脚本里面的命令还需要加sudo吗?

A:执行用户有权限执行这个脚本,如果有,就这样脚本里面。


Q24. use foreground option to run Zabbix agent as console application这个该怎么处理?windows-server 2008 下安装zabbix_agent 4.0.5 报错, windows-server 2016 正常.

A:加个 -f --foreground 试试。


Q25. 页面测试报错怎么办?

A: 看各个组件的日志,看看哪里有问题。


Q26. 同一个告警发了4次, 怎么设置只发一次?

A:action配置问题同样的配置,其他zabbix就没这个问题, 没解决就一直报, 是不是步骤持续时间 不能设置,你看下trigger 这里是不是配置了多重,没有那就删掉这条,克隆一条其它正常的动作。


Q27.net.udp.service[ntp] 最新数据中看到都是正常的,值为1;但是使用zabbix_get 去测试,结果都是0 怎么会不一致?

A:到目标主机上zabbix-agent -t "key"看下结果。


Q28.1:这个监控项已经启用了,为什么还是灰色的呢?

A:主动的话是不会变色的。

Q28.2:怎么看主动还是被动?

A:agent配置文件。


Q29:Zabbix用snmp方式监控cpu使用率时,我触发器设置的值是到百分之80报警,但是被监控的主机有多核,触发器也只是监控某个核心的值,有没有办法求多核的平均值?

A1:zabbix 的宏可以写两个 我现在有两个主机群组,想分别对应俩。

A2:新建个items,然后类型选可计算,把几个item的合一起算一下。


Q30:zabbix为什么总是认证超时,系统默认还不让用 v1 和 v2c?

A1 :snmpv3没配置好。

A2:可以用v2,console里打开即可。


Q31:“Zabbix agent on [HOSTNAME] is unreachable for 5 minutes”要怎么解决?

A:是多台还是个别?还有是Windows还是linux?个别的的话基本定位代理配置文件,agent与server之间通信。大量的是出现可能是proxy出现问题。Windows的话如果开启防火墙需要添加出站入站规则。


Q32:zabbix-aerver 和zabbix-agent的连接是长连接吗?

A:不是,数据传完就关。如果做了加密的话,每次建立tcp前都要对新连接加密,建立连接的时间大概是不加密的4倍。


Q33:如何在生产环境上从3.x升级到4.x版本的?能否做到平滑升级?

A1:肯定要临时断掉Zabbix,升级时间看视数据量而定。

A2:要平滑升级,得在新的地方起一套数据库,一套新版本Zabbix,提前写好脚本,新环境测试ok 执行脚本就好了。

A3:建议 history history_uint trends trends_uint 这四个表 truncate了。


Q34:如何做Oracle自定义监控脚本吗?在Zabbix上显示出来自定义Oracle的Sqlplus查询结果?

A:可以通过自己写脚本获取。


Q35:WEB监测能监测网站内容吗?比如网站内容空白但是返回200?

A1:选到head and body。然后检测body中的特定字段。


Q36:监控nx交换机,能取到值,但是图形没数据是什么情况?

A1:图上一个值 snmp多个值。可以根据OID 然后snmpwalk得。

A2:snmpget 能拿到数据的oid 配置在zabbix oid里 才能获取数据,其他都不能。


Q37.1:同一个数据类型里面有很多监控项,过期时间不是会不同吗?

A:首先,每个item只能获取一个值,oid的返回结果有多个值,实际上是没有生效的 ,必须要具体配个1.1.1.6.42才能拿到其中一个。

Q37.2:没有42怎么办?

A1:在现在这个oid后面再加这些,而这些数字就是index。有一个oid能够获取到cpu的所有index,需要自己再找一下。

A2:不同厂商,不同硬件设备的oid不一致,官网包涵不了所有。不同设备 比如有多个cpu 多个板卡的,会有index区分,对应起来 才能知道。


Q38.1:键值会有影响吗?

A:没有,snmp的键值只是一个名字,别和其他重复就行。

Q38.2:这个有影响吗?

A:这个有用,取决于获取的数据类型以及后续准备用这个items干啥,和其他items一样;你可能得系统学习一下items的各个配置项含义。


Q39:设置了要求的字符串,怎么看有没有返回呢?只能看到响应代码和时间速度。

A:包含没有的内容,就会报步骤失败。阅读官方文档,会有说明。


Q40:报警状态怎么自动变成已解决了呢?是用的Zabbixsender发送的一条字符串。

A1默认情况下这个表达式结果是false,就恢复了,除非指定恢复表达式。

A2:这个针对str的有点小问题,看上去好像检测到Server1,Server0会true;检测到Server0,Server1是true。


Q41:不同的触发器,发出来的报警信息都是一样的,是怎么回事?

A:信息模板没有做好。


Q42:多重警告应该在哪里设置?

A:如果勾选,可以去掉试试。


Q43.1:仪表盘上面显示正常,邮件爆出来还是problem,重复的同一个触发器两个告警,而且所有不正常的告警全部都报cy7-compute1 free disk space is less than 20%。

A:其中2个监控端口:一个7010的告警,一个7020的ok。
其中1个监控磁盘空间:告警。

Q43.2:不论触发器是那个都报这个磁盘问题,上面是对的下面是不对的。

A1:根据多个维度 告警,之后生成 告警 主机 联系人,去重 合并 之后 再发出,遇到rule 无法匹配的 发送到 default 通道2.数学里 交集 合集 并集的关系。

A2:需要一个告警分发平台。


Q44:https://zbx.cactifans.com 前端用什么写的,是哪个前端模板?

A1:vue
https://github.com/PanJiaChen/vue-element-admin
太庞大 可以看看 https://github.com/PanJiaChen/vue-admin-template
这个脚手架,基本上套一套就能出来,比较容易。

A2:后台都是用api取数据,不会用api,直接看Zabbix 的前端php,,源码,里面很多例子
api 搜索 host 根据 templates ip host dns。


Q45:zabbix_proxy 启动以后 只有一个进程 正常吗?

A:正不正常,是看服务。不是看进程。


Q46:WEB告警推送不到钉钉是什么原因啊,同样的配置,其他可以推送,zabbix3.0。

A1:告警都触发动作了,并显示发送成功,数据流到脚本应该应该是正常的,最有可能的就是脚本里面发钉钉的调用失败了。比如特殊字符或者发送频率太高什么的。具体失败原因,看脚本写不写日志了,没写就补上,然后再触发一次。

A2:看看触发器配置的发送对象是否有配置钉钉的mediatype
钉钉的发送脚本可以手工测试一下能不能正常发送。


Q47.1:Zabbix使用es数据库存储历史记录,监控项的过期历史记录怎么处理。

A:按日期索引,然后把旧的索引删掉。

Q 47.2:不同监控项,不同历史记录时间,是要一个个去匹配删除吗?

A:个模版再创建按日期的索引。不是监控项,是数据类型,比如int, text。

Q47.3:同一个数据类型里面有很多监控项呀,过期时间不是会不同吗?

A:看你删掉的多久前的索引了,数据根据索引的日期在house keeping 你就可以停止某种数据的删除了,具体删除由索引决定。

Q47.4:同监控项同类型的数据,也会在同一个索引里面?

A:不同的索引,一个类型一个索引。


Q48:脚本获取键值没问题,可是get的时候说语法有问题,这个错误是出在哪?

A1:应该是Zabbix hostname吧,得和host 的设置相对应。

A2:尝试去拿一下这个机器上其他的key,定位下是key还是命令的问题。


Q49:11028:20190311:165247.979 [Z3005] query failed: [1062] Duplicate entry '602' for key 'PRIMARY' [insert into alerts (alertid,actionid,eventid,userid,clock,mediatypeid,sendto,subject,message,status,error,esc_step,alerttype,acknowledgeid,p_eventid) values 这是那种报错?

A:先手工进数据库看看是不是有相同主键的两条记录。如果有,又没有操作修改过原生的数据库。数据也无所谓的话,可以做一个新的库重复进行过的操作,如果还是发生了。请带好两份数据库dump和全系统各个涉及的组件详细日志向官方举报。


Q50:监控项里面为什么要配置两个几乎一样的监控项,一个带延迟参数,一个不带?和触发器有关系?

A:用户自己配置的,如果想知道其中意义需要找到配置询问一下。


Q51:log[/path/to/file/file_name,<regexp>,<encoding>,<maxlines>,<mode>,<output>,<maxdelay>]如果最后一个参数maxdelay=1,会造成14点创建完成的监控项把两小时前发生的符合正则的日志读取并触发报警么?

A:log日志会增量式监控,过滤旧的日志功能。所以答案是不会。


Q52:100*last(vfs.fs.size[{#FSNAME},used])/last(vfs.fs.size[{#FSNAME},total])原型的item支持 计算类型吗?

A:你的计算格式错误,正确的应该是:
100*last(“vfs.fs.size[{#FSNAME},used])/last(vfs.fs.size[{#FSNAME},total]”)。


Q53:询问Zabbix有升级的相关资料么?

A:Zabbix官方在网站的官方文档里有详细的记载Zabbix升级的相关资料,可以免费查阅。


Q54:1. 设置了mysql模板,只有version是能够支持的?

A1:具体看配置文件路径下的有个parameter的文件。

A2:mysql本身的监控都是连入服务器执行的。不一定要vbs,只要能实现检查操作,随便怎么实现


Q55:自动发现的设备为什么不自动添加模板啊?还有协议怎么不亮呢?

A:有的。动作里有关联模板选项。详情参考官方文档。


Q56:1. a模板里没有1,2,3 监控项,b模板里只有1,2,3监控项;a,b两个模板同时应用到了主机@上;然后现在我想把b的1,2,3复制到a里,然后干掉b,b已经取消了对主机@的链接;然后复制不成功,反馈说@已存在监控项1, 2,3,继承自其他模板。难道要去主机里把监控项的历史数据和监控项清掉?

A:取消模板但是未清除模板监控项的。被取消的模板里原有监控项会自动变成被连接的模板或者主机里。


Q57:自定义的lld发现返回的json数据是:

  1. {

  2.  

  3. "data":[

  4.  

  5. {

  6.  

  7. "{#APPNAME}":"MessageCenter",

  8.  

  9. "{#MESSAGE}":[]

  10.  

  11. },

  12.  

  13. {

  14.  

  15. "{#APPNAME}":"customer-center",

  16.  

  17. "{#MESSAGE}":[]

  18.  

  19. }

  20.  

  21. ]

  22.  

  23. }

只获取其中一个{#APPNAME}和{#MESSAGE}

A:可以使用脚本在本地处理下.为空的就不加入 json里。


Q58:调用的Zabbix web上的HOSTNAME,能否改成其它方式读取到HOSTNAME呢?


Q59:在Zabbix中添加动作提交为什么报这个错误,Error in query [INSERT INTO auditlog (userid,clock,ip,action,resourcetype,details,auditid) VALUES ('1','1552967576','36.45.165.98','0','5','名称: action1','14')] [Incorrect string value: '\xE5\x90\x8D\xE7\xA7\xB0...' for column 'details' at row 1]

A:不能用中文。


Q60:换 key也是agent在被监控端检查吗?还是从服务器检测被监控端端口。

A1:没法全部导出,而且这个pdf里面还有乱码,功能也不完善。

A2:离线文档有很多问题,总结下来就是 此pdf 文档只为收集 占硬盘空存在。


Q61: 从外部 每1s 测 53 端口在linux下每1s 用nslookup 指定服务器做解析都没有问题30s一次,取值时间上确实不是30s但是 agent被动模式也会有这个问题?

A1:因为有个agent的配置有问题,我的环境有VIP,agent的server和serveractive里面写了VIP的RIP,数据发重复了agent debug =5了,log里看返回值也会有0这个应该可以排除 有VIP的造成的问题,或是有重复IP在成的吧。

A2:一个agent把数据发了两次,server是HA,用了VIP,然后agent配置里面填写地址有问题,有VIP还有RIP...其实VIP和RIP在一个机器上,所以导致发了两份数据。

A3:你的环境里面server的地址有VIP,是个单机的dns。


Q62:Zabbix到晚上处理历史数据,插入数据表一条sql执行时间也太长了点,有没有可优化的方向?

A:关闭管家功能 ,历史数据做表分区。


Q63:以下图中的这种无用的监控项如何从自动发现中去除,设置了这个正则表达式没起效果。

A:配置规则要在添加发现规则之前,清理模版,删除数据再添加。


Q64: 触发器被触发后 然后立马执行一个脚本 谁试过这个功能?

A1:动作里面设置,选择执行脚本,事件源:选择是触发器。

A2:zabbix_agentd.conf打开远程命令,mkdir 加个-p。


Q65:目标列表是指 是在哪一个服务器上执行动作吧?我的zabbix的启动是直接用root启动的,你看 我对动作理解的对不对,我是这样理解的,就是当触发器发生之后,然后就去执行动作。是这样的吗?我建立的触发器是属于一直处于报警的。

A1:windows执行命令,是没有权限问题的。但是LINUX会有权限问题,默认执行命令都是用ZABBIX这个用户权限去执行的,注意权限问题。

A2:动作是在触发器触发之时执行的,你现在问题已经发生了。不会去执行动了吧。你先把问题关闭后,再次触发看看。


Q66:Zabbix snmp方式监控主机CPU的平均值, items怎么写?没有agent。

A:先确认cpu对应的oid,不同硬件设备的不一样。去对应官网上找找mib库吧。关键字用linux/windows snmp oid。把对应的oid配置到item就行,具体可以参考其他使用snmp的模版里的items。不过还需要在os里配置对应的snmp服务。


Q67::编译升级Zabbix,make之后要执行make install吗?

A:需要,这相当于全新安装。


Q68:更新主机模板的时候提示找个错误,删除模板不会有。

A1:可能是数据库做过变更,比如分片。

A2:到数据库里去查下,指定表的字段是不是存在, 这么新的应该是实验平台吧,没有什么数据的话,建议原生建, 配置的话,大多数可以通过API导出再导,你先确认下历史监控数据是不是要保留。

A3:先确认是不是数据库里真的把这列丢了, 然后查查dump文件里面有没有创建这个字段的语句, 恢复没错的话,怀疑备份出错了, 只导配置的话可以完全用新的数据库,用API导出导入。数据库平台就不存在问题了。


Q69: Zabbix 除了 "监控中" 可以点以外,其他的点击之后都没有反应,用命令能够获取客户端的key值。

A:可能是没有管理员权限。


Q70:zabbix-proxy 链接数据库报错[Z3001] connection to database 'zabbix' failed: [2003] Can't connect to MySQL server on '192.168.0.125' (13), zabbix-proxy zabbix-server zabbix-db, 分布在不同的主机上, zabbix-server 链接zabbix-db没有问题?

A1:proxy和server用一个库?proxy在本机上也建有一个库。


Q71:配置文件哪个地方配的不对?

A1:要做域,没有域的话,就直接手动跑脚本,域只是帮助自动下发和执行脚本本身是一样的,里面其实漏了hostname,直接hostname=%computername%就可以了,脚本的好处就是可以所有的proxy下的机器 用同一个脚本就可以了,自动区分网络区域。

A2:cmd权限不够吧,要添加服务,试试看管理员的,agent安装包解压后,就修改下conf的server配置,就是管理员,另外一台linux主机做server,windows主机做agent。

A3:win自动化部署https://mp.weixin.qq.com/s/qKdpqu4ttAYr_EVxVz7eQA读环境变量,里面有脚本了,自动填写ip hostname


Q72:想监控阿里云 但是服务器没有固定ip 有没有办法呢?

A.: 云上弄个proxy,snat出来主动模式接server。


Q73:ZBX不亮,是不是说明还没有成功监控到agent?

A:云上机器的话注意安全组,注意防火墙,注意监听配置,最好先telnet测试下通断。


Q74:/zabbix_get 这个命令是从agent所在主机搜集信息通过agent发送给server么?

A:zabbix_get一般用来测监控项是否正常,在对应的server或者proxy上执行,如果能抓到正确的数据说明这个items从agent到对应proxy和server的流程没问题。


Q75:Zabbix能自动生成拓扑图吗?

A:不可以,但是可以自己获取网络信息,然后调用api,生成map。


Q76:如何解决zabbix proxy 无法访问zabbix server时产生的大量zabbix agent不可达告警?


Q77:升级Zabbix 有大佬遇到过这种主键重复的报错么?从3.0升级,不管是到3.2 3.4 还是4.0 都报这个错?

A1:升级过程中中断导致的数据库出错。

A2:删掉冲突的了,然后一个接一个好多冲突的看了 history_log 这个表,itemid 和 clock 一样的还不少。


Q78:硬件监控 是通过IPMI的吗?

A:硬件监控看厂家,厂家提供了什么工具。并不一定非走snmp 或者ipmi。


Q79:zabbix如何使用触发器报警数据作为报警名称?

A:zabbix提供了很多宏的使用,可以在action里面的操作里面做一些配置,举例:
Host name: {HOST.HOST}
Host IP: {HOST.IP}
Agent port: {HOST.PORT}
下面的{}中的都是宏,常用的有告警时间{EVENT.TIME},当前采集值{EVENT.VALUE},服务器IP{HOST.IP},告警名称{EVENT.NAME}等
具体可以支持的宏清单可以在官网中查询
https://www.zabbix.com/documentation/4.0/zh/manual/appendix/macros/supported_by_location


Q80:改了mysql资产表的存储引擎,InnoDB改为MyISAM,这样会对zabbix有影响吗,监控项历史数据的时间戳是存在哪里的,数据库没找到。

A:没有,但是myisam已经不推荐用了,5.7以前的版本,还有部分系统表是myisam的,8.0以后已经全部改为innodb了,myisam已被废弃。


Q81:Zabbix 显示报警信息送达相应的 邮箱 但是有人没有收到。

A:没有配置客户端。

  • No labels