实时监控系统设计

  随着系统业务复杂度的提升,系统复杂度提升,需要对整个系统的功能、性能、可用性,以及服务、

web、webservice、网页等等多个角度进行监控。

      1、监控设计为两个部分一部分为监控客户端部分,应用调用jar包或其他形式实现对单机节点的监控、

通过上报汇总的形式实现对大规模集群实现,非实时监控一般晚于1到5分钟的状况可以监控到。业务监控

采用每个服务器配置监控客户端,客户端负责写日志,并且定时将日志汇总日志中心,日志中心进行展示

,日志展示会存在一定延时。

       监控客户端可以实现为jar包,供需监控系统调用,实时写日志到文件系统比如每分钟生成一个日志

文件,监控jar包每个几十秒启动一次,扫描非当前系统正在写的日志文件(重写log4j类来实现)避免

同时读写一个文件产生异常情况,按行读取异步通过消息队列或发送实时收集接口到日志中心,删除处理

完成日志。

      监控为实现数据不丢失用于实时计算和离线计算,可以通过nginx代理形式,实现上边写文件形式来

保证一份数据是稳定的非常全的数据。

     2、某个用户调用路径监控可根据调用参数增加debug=true,关键方法均将返回值增加到返回值得

hashmap中,这个问题需要避免被外界恶意调用,恶意调用会将整个路径暴露,可以对debug调用ip或

其他可验证身份的东西做相应限制。

     3、实时监控系统,大众点评开源cat系统。

     4、数据传输如特别在意时效性,可将传输协议用udp,同事阿力提出的想法,很赞。

       未完待续...

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美团技术团队

【技术博客】Cache应用中的服务过载案例研究

简单地说,过载是外部请求对系统的访问量突然激增,造成请求堆积,服务不可用,最终导致系统崩溃。本文主要分析引入Cache可能造成的服务过载,并讨论相关的预防、恢复...

3005
来自专栏IT大咖说

MySQL高可用架构案例篇:UCloud最佳实践

1383
来自专栏架构师之路

微信为啥不丢“离线消息”?

需求缘起 当发送方用户A发送消息给接收方用户B时,如果用户B在线,之前的文章《微信为啥不丢“在线消息”?》聊过,可以通过应用层的确认,发送方的超时重传,接收方...

3846
来自专栏腾讯大数据的专栏

分布式系统场景注入测试

前言 大数据浪潮下,海量数据处理能力的提升是推动大数据不断前行的基础,海量数据处理的分布式系统应运而生,hdfs、hadoop、spark、storm、MQ等...

2258
来自专栏小勇DW3

redis cluster是如何做到集两家之长的

站在读写分离的层次看redis的时候,redis和master和slave存在明显的主从关系,也就是说master处于管理状态,salve跟着大哥混,maste...

1132
来自专栏数据和云

数据库高可用和分区解决方案-MongoDB 篇

许春植(Luocs) (阿里巴巴高级数据库管理员,7年以上数据库运维管理经验,擅长MySQL、Oracle及MongoDB数据库,目前主要研究并建设Mongo...

5046
来自专栏郝阳的专栏

关于分布式“缓存”的思考

本文从缓存的分类、同步和空查询三个问题分享下对分布式缓存的一些想法,抛砖引玉。

6370
来自专栏测试开发架构之路

【转载】Impala和Hive的区别

Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中...

802
来自专栏用户2442861的专栏

CQRS架构简介

http://www.cnblogs.com/netfocus/p/4055346.html

622
来自专栏社区的朋友们

TAF 必修课(四):过载保护

经过实习过程中,leader和导师在思维逻辑上的指导,自己再有意识的加以训练,我觉得非常受益。就如这部分的理解,目前就加深了很多。所以说,思维决定行为、行为决定...

5380

扫码关注云+社区