展开

关键词

开源(Ganglia、Open-falcon、Prometheus、Zabbix)

调研了一下开源的,最终选择了open-falcon。 从以下列表可以了解到各都有他在特定场景下的优势,如果以时间进行分类可以了解到新起之秀譬如open-falcon和prometheus设计思路都很像。

1.3K31

的思考

期望的目标及时发现需要的是即时并报警及时定位定位问题要分开讲 运维层面是机器硬件问题还是上面运行的基础服务的问题,或者是新上线代码的问题,需要回滚。代码层面在发生问题的时候,优先解决问题。 (我们现在就是这样做的,虽然原因并不是这个 2333遇到的主要问题指标多服务器CPU,内存,网络等的指标,基础服务Redis, MongoDB等的运行指标,外服务的API是否正常工作,还有数据是否正确等 报警多指标多的时候,自然报警也会相应增加,但是报警的分组与轻重缓急也是一个很麻烦的问题。还有就是部署着不同服务的机器,触发报警时候的指标也不好确定。 多维度数据这个话题太大(要感谢Baidu的颜大大的指点) 数据符合二八原则,重要数据需要多角度进行观察,需要有meta管理,需要动态简单配置。选择 好的,合理的数据模型可以有效的进行处理。 开源的使用,需要按照自己的实际情况进行适配。保证高可用性先写这些吧,之后有时间再写,还有QCon上运维上的一些分享也非常值得思考

15120
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年50元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    饿了么 EMonitor 与美团点评 CAT 的

    背景介绍----饿了么 EMonitor :是一款服务于饿了么所有技术部门的一站式,覆盖了、容器、网络、中间件、业务、接入层以及前端的数据存储与查询。 CAT:是基于 Java 开发的实时应用平台,为美团点评提供了全面的实时告警服务。本文通过分析下两者所做的事情为契机讨论或许该有的面貌,以及浅谈下发展的各个阶段。 至此, EMonitor 就可以将任何指标一在一起了,如机器都可以通过 EMonitor 来保存了,这为一站式奠定了基础。 告警方式:可以一的针各个层面的数据做一化的告警排障过程:只需要在一个中就可以查看到所有的曲线和链路信息。 目前我们 EMonitor 已完成这个阶段,将公司之前存在已久的 3 套独立的一整合成现如今的一套

    71610

    业务 No.118

    这篇文章是写给想目前的业务进行但是又不知道从何入手的小伙伴看的,又或者是于现有机制的一个反思,具体为什么要做这件事情,可以参照一下下边这篇,结合着看看。 于 Java 类来说还有JVM各种参数的如 各个代的gc时间、总gc次数和时间、堆内存、堆外内存、线程数 等。 cp5: 关键公共依赖很多业务本身并不止有数据库,还有很多外部如 Redis、Memcached 这类外部缓存如类似 ElasticSearch 、 Solor 、阿里 OpenSearch 这类搜索如Kafka 、RocketMQ、RabbitMQ 这类消息中间件。 主要的还是业务本身于外部的调用情况,如连接池、读写RT(响应时间)、读写QPS(每秒请求数)、读写成功率、网络IO。

    40150

    -方面Tomcat Manager更加强大的Psi-Probe

    Certificates:信任存储和连接器密钥存储信任存储Cluster:状态,使用图表。JVM:内存使用图表,建议GCJava Service Wrapper:重启JVM。 除上面那功能,部分个人觉得实用功能如下:管理端支持国际化可在线查看或下载Log日志可内存每个区域的使用情况在线查看Tomcat配置信息,jdk信息、操作信息等在线发布项目支持集群、线程在线查看 jdk自带的工具基本都需要进入服务器内部,通过命令去查看分析,没有可视化界面更加直观,还有就是这些工具功能较单一,命令较多,难记住,主要这些工具主要是JVM相关的信息,于web容器中请求、 可以通过工具-在本地通过jdk自带的jvisualvm和jconsole远程Tomcat的JVM运行这种方式来唉,这种方式虽然有可视化界面了,但还是存在到的信息有限,并且通过跨服务器jmx远程这种方式还受限于网络影响 其他工具:Javamelody,该工具高度与应用耦合,需要应用依赖于应的jar包和web.xml filter的配置,需要和其他框架进行整合才能使用。2.

    43721

    Nagios

    Nagios是一款开源的免费网络视工具,可以Windows、Linux和Unix的主机状态,交换机路由器等网络设备,在或服务状态异常时发出邮件或短信报警,第一时间通知网站运维人员。 表示状态正常(绿色显示),1(WARNING)表示出现警告(黄色),2(CRITICAL)表示出现非常严重错误(红色),3(UNKNOWN)表示未知错误(深黄色),nagios根据插件返回来的值来判断象的状态 Libexec:默认插件的存储位置六、配置nagios1)nagios的配置文件: Nagios.cfg:主配置文件,定义各种配置文件的名称和位置 Cgi.cfg:制CGI的配置文件 Resource.cfg 2)配置文件之间的关在nagios的配置过程中涉及的几个定义有主机、主机组、服务、服务组、联人、联人组、时间和命令等。 成功配置出一台nagios,必须要弄清楚每个配置文件之间依赖与被依赖的关,最重要的有四点:定义那些主机,主机组,服务和服务组定义这个要用什么命令实现定义的时间段定义主机或服务器出现问题时要通知的联人和联人祖

    56430

    promethus与

    以下文章来源于腾讯TStack,作者小熊这就是prometheus?随着容器技术的迅速发展,Kubernetes已然成为大家追捧的容器集群管理。 Prometheus 作为生态圈 Cloud Native Computing Foundation(简称:CNCF)中的重要一员,其活跃度仅次于 Kubernetes, 现已广泛用于 Kubernetes 集群的中 本文带领大家体验如何使用Prometheus开始收集指标,以便开发人员和平台运维人员可以快速的掌握 Prometheus。 ?上图是Grafana看板的展示情况,让我们开始吧! Exporter: 类似传意义上的被端的agent,用于暴露已有的第三方服务的指标(metrics) 。 常用指标类型有:node_cpu:CPU使用量node_disk*:磁盘IOnode_filesystem*:文件用量node_load1:负载node_memeory*:内存使用量node_network

    47130

    聊聊

    1、 为什么需要 作为运维者,第一个接触的基本上是平台,各种各样的,看各种各样的指标,好像没有就觉得不正常,那么为什么需要呢? 关键指标,例如于web服务器来说,响应速度,来判断是否中间件有问题,是否数据库有问题,还是网络有问题;活跃的用户数,每天我的网站有多少用户访问;有多少新注册的用户。 2、 如何选择 看过好多,各种各样的公司使用的各不一样,有的用nagios,有的用zabbix,有的自研,so much more choice。。。 选择的时候,无非是需要几个特性的支持: 是否支持多主机,例如一个分布式的集群; 是否支持多维度的数据分析,例如一个主机上有多少个容器,一个主机上容器总共使用了多少内存,每个容器又使用了多少内存 4、 容器的 于一个容器,我需要哪些指标?

    68940

    Prometheus+Grafana

    而Prometheus则是客户端本地也会存储数据,服务端定时来拉取想要的数据。 Zabbix的客户端agent可以较方便的通过脚本来读取机器内数据库、日志等文件来做上报。 Prometheus的上报客户端则分为不同语言的SDK和不同用途的exporter两种,如如果你要机器状态、mysql性能等,有大量已经成熟的exporter来直接开箱使用,通过http通信来服务端提供信息上报 这里默认了Prometheus自己,可以通过修改这里来修改Prometheus的端口。 Prometheus的每个exporter都会是一个目标,它们可以上报不同的信息,如机器状态,或者mysql性能等等,不同语言sdk也会是一个目标,它们会上报你自定义的业务信息。 当前共安装有 211277 个文件和目录。)

    11620

    python soscket

    自己写的服务,想windows ,所以用python写了一个服务,用于执行命令用python 3写的,2的话需要修改。 server端,也就是被端import socket import sys,os host = 0.0.0.0 port = int(sys.argv) #这里写入可以连接的客户端地址trust =     else:       conn.send(bnot trust address)       break   conn.close() while True:   conn() 客户端,也就是服务器使用的

    17110

    ceph开源软件

    介绍目前主流的Ceph开源软件有:Calamari、VSM、Inkscope、Ceph-Dash、Zabbix等,下面简单介绍下各个开源组件。2. 开源软件2.1 CalamariCalamari外提供了十分漂亮的Web管理和界面,以及一套改进的REST API接口(不同于Ceph自身的REST API),在一定程度上简化了Ceph的管理 优点:管理功能好界面友好可以利用它来部署Ceph和Ceph缺点:非官方依赖OpenStack某些包2.3 InkscopeInkscope 是一个 Ceph 的管理和,依赖于 Ceph 提供的 API,使用 MongoDB 来存储实时的数据和历史信息。? 优点:易部署轻量级灵活(可以自定义开发功能)缺点:选项少缺乏Ceph管理功能2.4 Ceph-Dash Ceph-Dash 是用 Python 开发的一个Ceph的面板,用来 Ceph 的运行状态

    35420

    分布式Zabbix3.4-针MongoDB性能操作笔记

    公司在IDC机房的一台服务器上部署了MongoDB,由于所存储的业务数据较重要,所以MongoDB的显得尤为重要! ZabbixMongoDB性能的原理:通过echo db.serverStatus() | mongo admin 来查看mongodb的状态。 ZabbixMongoDB性能,主要以下项目:- 内存使用情况- 连接数- 锁- 刷新写操作到磁盘- 每秒执行的查询,插入,删除,更新等操作次数- 每秒访问的索引次数,每秒命中索引的次数- MongoDB MongoDB的性能的自定义脚本# cat usrlocalzabbixmonitor_scriptsMongoDB.sh#! 效果图如下:???

    85740

    安防入门——常用设备介绍

    我们所说的台区别于照相器材中的台,照相器材的台一般来说只是一个三脚架,只能通过手来调节方位;而所说的台是通过在远端可以制其转动方向的。 4、视器  视器是的标准输出,有了视器我们才能观看前端送过来的图像。 视器分彩色、黑白两,尺寸有9、10、12、14、15、17、21英寸等,常用的是14英寸。 另外,有些视器还有音频输入、S-video输入、RGB分量输入等,除了音频输入用到外,其余功能大部分用于图像处理工作,在此不作介绍。 7、视频切换器  多路视频信号要送到同一处,可以一路视频应一台视器,但视器占地大,价格贵,如果不要求时时刻刻,可以在室增设一台切换器,把摄像机输出信号接到切换器的输入端,切换器的输出端接视器 9、录像机  中最常用的记录设备是民用录像机和长延时录像机,因其操作简单易学,录像带也容易保存和购买。

    21920

    Python数据进行采集——psutil

    大家好,我是辰哥~ 今天给大家介绍一个可以获取当前信息的库——psutil 利用psutil库可以获取的一些信息,如cpu,内存等使用率,从而可以查看当前的使用情况,实时采集这些信息可以达到实时的目的 psutil库 psutil的安装很简单 pip install psutil psutil库可以获取哪些信息? 1024 1024# 已经使用内存ysy = float(mem.used) 1024 1024 1024# 空闲内存kx = float(mem.free) 1024 1024 1024print(总计内存:%d.4GB % zj)print(已经使用内存:%d.4GB % ysy)print(空闲内存:%d.4GB % kx) 获取当前总内存,已使用内存 :%d.3GB % total)print(已经使用磁盘:%d.3GB % used)print(空闲磁盘:%d.3GB % free)print(u磁盘使用率: %s%% % dk.percent

    19640

    工具-glances

    作为运维不仅要时时,还需要优雅的装13,当别人还在命令的小黑框里敲打那个top命令去查看性能的时候,我们带你使用web端性能glances 是利用Python语言开发,的工具,与 Linux命令中的top最为相似,但是top命令更齐全.主要用来:·CPU 使用 率;·内存 使用 情况;·内核 计 信息 和 运行 队列 信息; ·磁盘 I O 速度、传输 和 读 写 率; ·文件 中的 可用 空间;·磁盘 适配器;·网络 I O 速度、传输 和 读 写 率;·页面 空间 和 页面 速度;·消耗 资源 最多 的 进程;·计算机 信息 和 资源。 :h: 显示帮助信息·q: 离开 程序 退出;·c: 按照 CPU 实时 负载 进程 排序;·m: 按照 内存 使用 状况 进程 排序;·i: 按照 I O 使用 状况 进程 排序;·p: 按照 进程 名称 排序;·d: 显示 或 隐藏 磁盘 读写 状况;·f: 显示 或 隐藏 文件 信息;·1: 分开 显示 每个 CPU 的 使用 情况。

    28351

    工具-dstat

    方向,推荐一个工具,dstatdstat是一个用Python语言实现的多功能计工具,用来取代Linux下的vmstat ,iostat,netstat,和ifstat等命令.特点:1.实时2 占用资源小4.用不同的颜色表示不同的单位,增加可读性 安装很简单,yum install dstat就可以安装 版本: dstat --version 这个命令可以查看dstat的版本,顺带会显示操作版本 cpu,磁盘,网络,换页,以及信息,安装一秒钟一次的频率输出,结束就按Ctrl c就可以了. 常用选项: -c 显示 CPU的使用情况(作为运维要知道sys,idl ,wai,usr) -d 显示磁盘读写情况 -l 负载情况 有时候想查找占用资源最高的用户或者进程 #dstat --

    44321

    工具 Tsar

    Tsar是淘宝的一个用来收集服务器和应用信息的采集报告工具,如收集服务器的信息(cpu,mem等),以及应用数据(nginx、swift等),收集到的数据存储在服务器磁盘上,可以随时查询历史信息 Tsar能够较方便地增加模块,只需要按照 tsar 的要求编写数据的采集函数和展现函数,就可以把自定义的模块加入到tsar中。 etclogrotate.dtsar) output_interface 指定tsar的数据输出目的,默认file保存本地,nagiosdb输出到中心数据库中,这两个功能还需要结合其它配置 Tsar running - default is 5667server_port 8086####The cycle of send alert to nagioscycle_time 300由于是nagios的被动模式 client programsend_nsca_cmd usrbinsend_nscasend_nsca_conf homeaconfamonsend_nsca.conf接下来制定哪些模块和字段需要进行

    38560

    Android卡顿

    我们设想的Android卡顿需要达到几项基本功能:1、如何有效地到App发生卡顿,同时在发生卡顿时正确记录app的状态,如堆栈信息,CPU占用,内存占用,IO使用情况等等;2、计到的卡顿信息上报到平台 实验方法:ViVoX9 上运行微信读书App,使用卡顿与高频采样,和不使用卡顿的情况下,保持两次的操作动作相同,分析性能差异,数据如下: 关闭 打开 情况(上涨) CPU 1.07% 到此,我们还可以卡顿进行聚类操作,进一步排重和缩小数据量。分类前每个堆栈,根据业务的不同设置好过滤关键字,提取出感兴趣的代码行,去除其他冗余的函数后进行归类。 卡顿的处理流程用户上报目前我们的策略是:1、通过后台配置下发,灰度0.2%的用户量进行卡顿和上报;2、如果用户反馈有卡顿问题,也可实时捞取卡顿日志来分析;3、每天灰度的用户一个机器上报一次, 希望卡顿能越来越多地暴露卡顿问题,在大家的共同努力下不断提升App的流畅体验!

    3.3K52

    SpringBoot之Admin

    前言:生产环境用springboot,时常需要项目的情况,官方也提供了一些接口,例如:health、info等等,实际上除了之前提到的信息,还有其他信息业需要:当前处于活跃状态的会话数量、当前应用的并发数 1.创建 创建一个空的springboot项目并依赖一下jar包 org.springframework.boot spring-boot-starter-web de.codecentric static void main(String[] args) { SpringApplication.run(SpringbootmonitorApplication.class, args); }}配置端相应的配置文件 server.port=8080spring.jackson.serialization.indent_output=trueendpoints.health.sensitive=false2.配置需要项目 spring-boot-starter-actuator依赖配置application. properties文件spring.application.name=testwebspring.boot.admin.url= 指定上面adminServer的地址即可

    65430

    Oracle总览

    提前定位性能瓶颈如果你一套不了解,在运维过程中我们往往是迷茫的,心里没有底的特别是性能问题1.3 多套数据库一管理虽然Oracle有他的一管理工具,但是我想大多数还是不用的吧1.4 练手Python 正好于Python使用也有一段时间了,而工作上也有这种需求,所以才萌发了这个想法,根据自己实际运维中的需求来开发一套 在开始今天的正式想说的是这套只是辅助我们日常的运维,于Oracle本身的一些工具 ,如awr和statpack,ash等工具我们还是需要熟练掌握的这次的分享是上次分享的一些改进,增加了一些新的功能首先先列出来使用到的一些环境:开发环境操作:CentOS 7.4Python版本 的功能4.1 LinuxUnix我们要判断一个是否正常,可以先从其CPU,内存来入手,这里我们获取到了服务器的数据后,可以进行分析4.1.2 CPU趋势?4.1.3 内存趋势? 4.2.6 数据库命中率查询这个功能还在评估要不要加入,暂无打算4.2.7 数据库基线设置可以设置数据库某个指标的某天趋势为基线方便4.2.8 数据库常用命令执行这里还有个功能就是于我们日常用到的一些运维脚本集成到网页上方便执行检查数据文件创建时间检查表的分析时间查看数据库段的大小查看进程应的

    17520

    相关产品

    • 云监控

      云监控

      云监控(CM)可收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配置上报的监控指标,以及针对指标设置告警,让您实时、精准掌控业务和各个云产品健康状况。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券