PHPIT运转监察和控制消除方案介绍

现状

•小集团/ 创业团队< 500台服务器规模

开源方案:Zabbix、Nagios、Cacti…

云服务提供商:监察和控制宝、oneAlert等

•BAT等第> 10万台服务器

投入大批量的人工,内部自行研制,与业务严重耦合没办法作为产品推出

•中间阶层

无从可选

 

早期,选用Zabbix

•Zabbix是一款开源的铺面级监督系统

•对其开始展览三次开辟、封装、调优…

•为啥采用Zabbix

•Cacti

•Collectd

•RRDtool

•Nagios

•openTSDB

 

Zabbix实行思路

•测试ZabbixNode

•Zabbix代码优化

•使用格局优化

•独立安插多套Zabbix,通过API整合

 

Zabbix境遇的主题素材

•随着集团事情范围的飞跃发展

•用户“使用频率”低下,学习费用非常高

•不具备水平扩大才具,不能够支撑业务供给

•告警计策的保卫安全、改换代价太大,导致启摄人心魄士沦为个中,不能够自拔

•不便利自动化,不便宜与运行平台等基础设备整合


Open-Falcon

Open-Falcon是华为运行团队设计开垦的一款网络公司级督查连串

•提供最棒用、最人性化的互连网公司级监督检查化解方案

•项目主页:http://open-falcon.com

•Github: https://github.com/xiaomi/open-falcon

•QQ讨论组:373249123

•微信公众号:OpenFalcon

 

社区贡献

•沟通机监控

https://github.com/gaochao1/swcollector

•Windows监控

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/windows_collect

•Agent宕机监察和控制

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/agent_monitor

•Redis/memcached/rabbitmq监控

https://github.com/iambocai/falcon-monit-scripts

•MySQL 监控方案

https://github.com/open-falcon/mymon

 

数1数二案例

美团

•生产环境普及应用,一万+agent

•集成服务树、帮忙ping监察和控制、多机房架构协助、报告警察方第三接收人匡助

•正在开荒openTSDB接口、query扩大正则效率

赶集

•深度定制,用于大数据部门平台服务监察和控制与活动运行,生产环境已上线

京东财政和经济

•深度科学钻探open-falcon

•正在开采测试drrs(壹种分布式的time series data 存款和储蓄组件)并适配falcon

 

内部 

PHP 1

agent
•负责机器数据搜罗
•自发现各种监督检查目标
•发送数据给transfer
•发送心跳消息给hbs
•实行自定义插件
•业务数据并非用插件搜罗!
•数据搜聚选拔推依然拉的方法?

transfer •对吸收到的多少做合法性校验
•转载数量给graph和judge
•为啥要做这么些统1的接入端?
•为何要对数码做分片?
•数据分片方案,用一致性hash仍然路由表?

judge •对接受到的数码遵照阈值实行判定
•达到阈值的多少发生相应的event
•触发式判断or 轮询?
•为啥要利用内部存款和储蓄器?

graph
•操作rrd文件,对数码举办仓库储存和查询
•将反复操作合并后再flush磁盘
•就要flush到磁盘的数码,制伏到各类时刻片,下降IO消耗
•为啥用rrd而不是opentsdb之类的?

hbs
•提供接口给agent查询机器所需监督检查的端口、进度、要实践的插件列表等消息
•接收agent汇报的情状新闻并写入数据库
•缓存用户配置的报告警察方计策
•为何要用hbs缓存计策列表?

query

•利用壹致性hash算法,查询五个graph的多寡并集聚
•供给动用与transfer同样的hash算法及布局

各web端
•Dashboard负责绘图、展现、仪表盘等
•Uic负责管理组合人的应和关系
•Alarm-dashboard负责展现当前未恢复生机的告警
•用户在portal中配备告警战略
•Portal中的hostgroup1般是从CMDB中协同过来的!

Aggregator 目标:集群监察和控制
•针对某些hostgroup的多少个counter进行总计
•分子:$(c1) + $(c2) -$(c3)
•分母:可以是$# 也许数字只怕$(d一) + $(d贰) -$(d三)
测算结果
•封装成二个metricItem,再度push回open-falcon
为何那样落成
•归1化的难点消除方案
•复用整个open-falcon的绘图突显、告警逻辑

Gateway——跨数据大旨

PHP 2

接驳服务树(CMDB)
•开源服务器管理组件(服务树)
•监察和控制目的通过服务树来管理
•服务器进出节点、监察和控制自动退换

野史数据高可用
rrd-on-hbase
•绘图数据存储在hbase中,消除高可用的难题
•历史数据提供更详尽粒度的查看
drrs(@京东财政和经济)
•Distributed Round Robin Server
•面向宗旨公司,轻量级的野史数据存款和储蓄方案,化解多少扩大体量的标题

智能告警
同比、环比
•Dashboard数据显示支持相比、环比
•告警推断引进同期相比较、环比作为参考
动态阈值
•通过对历史数据的就学,生成动态的报警阈值
论及分析
•精准告警
•故障定位

SDK
七层
•Nginx
•统计cps、200、5xx、4xx、latency、availability、throughput
言语协助Java/C++/PHP/Python
•内置计算各样接口的cps、latency
•内置总括工作关切的目的的才干
框架协助
•resin、spring、flask…
总计类型
•Gauge/ Meter / Timer / Counter / Histogram

云监控
•服务端Host在国有云上
•无需客户安装、运转服务端
•支持namespace隔离、quota限额
•从根本上对两样用户的数目开始展览隔绝
•优化监察和控制的增进、管理、查看流程
•升高用户体验、进步用户接纳功用

其他
•Callback成效巩固,推进故障自动处理
•插件的治本协理多种艺术(不只限于git)
•Dashboard 扩大用户登入认证
•告警排班/ 告警进级(@金山云)


Open-Falcon布置实行
•开始阶段
•全部的零部件布署在壹台物理机上就能够
机器量级~ 500
•graph、judge、transfer多少个零部件拆分出来安插在一台服务器上
机器量级~ 1000
•graph、judge、transfer 增加到2~3个实例
•query拆分出去,陈设1个实例
•dashboard 拆分出来布署
机器量级~ 10K
•graph、judge、transfer 扩充到1捌个实例,graph尽量使用ssd磁盘
•query增加到5个实例
•dashboard 拆分出来,扩充到一个实例

 

企望对您运行管理有帮带。


以上内容部分来源互连网, 希望对您系统架构划设想计,软件研究开发有赞助。
其它您或者感兴趣的文章:

营造便捷的研究开发与自动化运转
互连网数据库架构划设想计思路
挪动支付一站式化解方案
某大型电商云平台实行
公司级应用架构形式N-Tier多层架构
某商号打交道应用网络拓扑架构图
IT基础架构规划方案一(互联网类别规划)
膳食直营市廛IT消息消除决方案1

如有想询问越来越多软件研发 , 系统 IT集成 , 公司新闻化,项目管理
等情报,请关心自作者的微信订阅号:

PHP 3

 

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和腾讯网共有,欢迎转载,但未经我同意必须保留此段注明,且在文章页面显然地方给出原著连接,不然保留追究法律义务的职责。
该小说也还要公布在自家的单身博客中-Petter Liu
Blog

相关文章