展开

关键词

python

主要域名能否访问,还有redis是否正常# coding: utf-8__author__ = www.py3study.comimport osimport timeimport subprocessimport socket.socket(socket.AF_INET, socket.SOCK_STREAM)        sk.settimeout(1)        ip = 192.168.40.250 #ip对应redis的         finally:            sk.close() if __name__ == __main__:    st = testing_server()上面的脚本还做了redis 红色框是我添加的一个不存在的域名,这里很明显ping失败了,证明程序是没有问题,redis的也正常再把redis关了,在运行一次脚本,看看redis的是否正常? 关闭后,redis获取失败,脚本正常!这个程序还比较简单,如有兴趣,也可以自己添加一些更多的进来

94810

Nagios运行

在系统或异常时发出邮件或短信报第一时间通知网站运维人员,在恢复后发出正常的邮件或短信通知。 :网路(HTTPD,FTP,SSH,MySql……)2.:主机资源(处理符合,硬盘利用率……)3. 启动Nagios后,它会周期性的自动调用插件去检测,同时Nagios会维持一个队列,所有插件返回来的信息都进入队列,Nagios每次都从队首开始读取信息,并进行处理后,把结果通过web Nagios提供了许多插件,利用这些插件可以方便的很多。 -0.5.0 #也就是Nsclient++,用来Windows,分为64位、32位版本nrpe-2.15.tar.gz #代理,用于非Nagios本地私有信息代理vautour_style.zip

84730
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年50元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    ZabbixDell硬件

    Server Administrator应用程序具有下列特性: 简便易用管理存储管理(直连存储 – DAS)OMSA安装 参考: http:zh.community.dell.comtechcentersystems-managementwwiki561 .omsalinux 在有Internet连接的RHEL上安装OMSA运行下面命令来设置Dell OpenManage的yum repositorywget -q -O - http:linux.dell.comrepohardwarelatestbootstrap.cgi =0Zabbix上设置创建userparameter_hardware.conf# 1表示正常,0表示异常 UserParameter=hardware_battery,omreport {if(hardware_virtual_disk_number==hardware_virtual_disk) {print 1} else {print 0}}重启zabbix-agent,并检测 etcinit.dzabbix-agent restart# zabbix_get -s 127.0.0.1 -p 10050 -k hardware_temp1 从上面可以看出通过OMSA结合Zabbix对DEll硬件进行已经完成

    1.5K60

    安装serverstatus多台

    如果是一台很好管理,但是多了,就很容易忘记,因此就需要一个的平台。 serverstatus是一个开源的系统,可以利用serverstatus可以自己搭建平台,通过web页面同时检测多台的流量、硬盘、内存等多个参数。 今天就通过serverstatus中文版介绍下这个多探针的用法。 项目在线演示 https:tz.cloudcpp.com下面我们就开始部署自己的多搭建web环境我使用的是宝塔面板安装yum install -y wget && wget -O install.sh config.json设置客户端的账号密码,每个设置一个数据,真实环境的话记得设置为复杂密码运行端,注意webdir为你的web站点路径.sergate --config=config.json

    1.8K70

    ZABBIX 3.2 TCP连接

    摘要:TCP的连接对于我们web来说是至关重要的,尤其是并发量ESTAB;或者是syn_recv值,假如这个值比较大的话我们可以认为是不是受到了攻击,或是是time_wait值比较高的话,我们要考虑看我们内核是否需要调优 TIME_WAIT 99CLOSE_WAIT 44FIN_WAIT1 1FIN_WAIT2 5ESTABLISHED 275LAST_ACK 1LISTEN 25可以使用man netstat查看TCP的各种信息描述 TCP对连接中断的确认; LAST-ACK - 等待原来发向远程TCP的连接中断请求的确认; TIME-WAIT -等待足够的时间以确保远程TCP接收到连接中断请求的确认; CLOSED - 没有任何连接 添加项?添加完基本上就是下面这样:?为了方便大家添加,我已经将name和key整理如下. 小结:因为tcp连接数不太好设置触发,因为业不同,具体设置多少还是要根据需求来。因为我这是个人博客所以连接数是多少都可以!

    50730

    如何 Linux 的方法

    Linux 我们天天打交道,特别是 Linux 工程师更是如此。为了保证的安全性能,我们经常需要的一些,以保证工作能顺利开展。 使用这个命令,我们可以重复调用一些命令来达到的作用。 对于这些小伙伴有没浑水摸鱼,我们可以使用一些命令来他们。我们可以每隔 10 秒执行 who 命令,来看看都有谁在使用。 默认情况下,top 的是系统的整体,如果我们只想知道某个人的使用情况,可以使用 -u 选项来指定这个人。 到此这篇关于如何 Linux 的文章就介绍到这了,更多相关linux 内容请搜索ZaLou.Cn以前的文章或继续浏览下面的相关文章希望大家以后多多支持ZaLou.Cn!

    33610

    node系统架构

    不同于个人开发的简单,企业级的node要求更为苛刻:高稳定性、高可靠性、鲁棒性以及直观的和报想象下一个存在安全隐患且没有系统的node在生产环境下运行的场景,当某个node实例挂掉的情况下 、延时处理进程的实时响应时间和吞吐量而作为一个运维人员,关注的不仅仅是node进程的相关信息,还包括物理主机的使用况:物理硬盘所剩存储空间内存、cpu使用率网络接入是否正常可以看出,不管是针对主机还是进程进行 ,我们的关注点大多数是资源使用率和业量处理能力,因此我们的系统也着重实现这些功能。 系统简易架构目前生产环境下的node大多采用多进程或者cluster模式,而且为了响应突发流量往往采用多机部署,因此的目标实体就是多物理(虚拟)机下的多个子进程。 node的net模块提供了domain socket的通信方式,网络类似,采用domain通信的侦听的不是端口而是sock文件,采用这种方式实现全双工通信。

    72370

    springboot2.x中的之邮件

    上一篇文章写了怎么在springboot2.x中添加,如果有需要的小伙伴可以回头看一眼,《springboot2.x中的》,可是这还需要我时不时的来登录一下系统查看一下,好麻烦,要是能有提醒就好了 true mail.smtp.starttls.required: true boot: admin: notify: mail: to:接收提醒的邮箱 from:发送人邮箱这样就够了,重新测试你的 ,启动或者挂掉的时候邮箱都能收到提醒了。

    38120

    配置(钉钉)

    ——钉钉群机人1、新建钉钉群机人2、编写 Shell 脚本3、定时任4、部分效果截图本文演示一个利用钉钉群、告运行所处的。 发送钉钉消息curl -s ${Dingding_Url} -H Content-Type: applicationjson -d { msgtype: text, text: {content: xxx 发送钉钉消息curl -s ${Dingding_Url} -H Content-Type: applicationjson -d { msgtype: text, text: {content: xxx n$1已恢复正常运行! crontab -l 列出当前用户定时内容crontab -r 删除当前用户的定时crontab -e 编辑当前用户的定时在设定编辑之前都建议列出查看一下:crontab -l4、部分效果截图

    1100

    腾讯云云实时稳定性和运行

    手里有虚拟主机和云的站长们,为了保证时刻了解运行,使用实时软件可以做到这一点,也就不需要我们自己 24 小时了。 因为魏艾斯博客就放在腾讯云的缘故,所以今天来说一下腾讯云云实时稳定性和运行运行方面可供选择的工具软件有很多,不过第三方商提供的工具功能比较简单。 打开之后是下图的界面,左侧是概况,面板等,右侧是对应的指标。?在 Dashboard 里面,可以添加项目。下图两个选项是两张截图合并而成的,实际上这两个选项不可以同时选择。 比如你有腾讯云,那么点开云产品,选择云,选择所在地域就会看到你的了。在后面能看到,CPU 利用率、内存利用率、外网出带宽等。?你可以根据自己的设置来添加告策略。 总体来说腾讯云云工具,对于实时掌握稳定性和运行很有帮助,只是无法应用于第三方。如果你有腾讯云的话也可以尝试一下这个功能。

    1.4K40

    体系建设(二):指标

    、MQ、IHS、TOMCAT、AD、REDIS等-其它系统软件:备份软件4、应用层:-可用性:、日志刷新、端口听、网络连通性等-应用交易:交易整体情况、应用性能(重要交易或整个节点的交易量 -阀值分级上升机制: 有指标,就需要针对指标定义阀值,阀值的设立需要有分级机制,以分通知、、告三级为例:通知需要运维人员关注,比如“交易系统登录数2000,登录成功率95%,平时登录数基线 500,登录成功率96%”,由于登录成功率并未明显下降,可能是由于业作了业推广,运维人员只需关注当前应用运行再做判断;代表事件需要运维人员处理,但重要性略低,比如“CPU使用率71%,增长趋势非突增 另外,人工智能这么火,也提一点通过机学习来实现基线的思路(思路还不成熟,仅供参考):将应用运行健康不健康的样本数据汇总,样本中不同指标的指标数据作为不同的变量,结合不同的算法,通过调参学习后,得到运行好坏的基线 这样,就可以将基线做一个运行,把实际运行的多个指标数据关给基线,基线返回当前运行好坏。指标先总结到这。

    1.2K20

    关于的那些事,你有必要了解一下

    Push模型一般通过Agent方式去采集信息并推送到收集中,每个的Agent都需要配置数据项端的信息,在大量时会加大运维难度;另外,采用Push模型,在流量高峰期间端会同时接收到大量请求和数据 容环境,主要指所处运行环境的一些数据。应用,主要指本身的基础数据指标,提现自身的运行况。第三方接口,主要指调用其他外部接口的情况。 所以对主机的是非常有必要的,我们可以在其出故障之前对其进行处理,避免严重的事故发生。 比如下面即可表示主机不可用:up{job=node-exporter}==0 5、旨在关键,比如docker.service,ssh.service,kubelet.service 6.3、应用6.3.1、为什么需要应用应用是业的载体,也是用户最直观的体验,应用的否直接关系到业的优良以及用户的体验。

    29310

    干货 | 千万级别数据20秒内反馈,携程酒店智能平台如何实现?

    3、效果酒店平台目前已经配置了30多种主动式自动化,并有以下系统级:ClogES&Dashboard规则JobBadsqlART报表DB数据库一致性CAT 原理:用户在系统中配置规则主根据用户配置自动生成执行任,并调度分布式执行机执行,执行机分生产测试环境,可收集不同环境数据? 执行机配置管理图执行机上数据通过配置规则批处理运行任,该过程包括数据采集、算法过滤、历史比对、系统扫描,异常数据传至邮件并推送到CP4,目前日运行任数>30万,最小时间粒度可至20秒 为帮助业人员分析问题,需要提供尽可能详细的信息,让用户从多维角度快速定位问题来源,信息集成了以下信息:CAT系统获取应用上下游调用关系波动程度NOC系统获取到配置修改信息发布系统获取最新发布 SLB系统获取机信息Clog还提供了一些辅助功能:集成TTS电话系统,重要可电话到负责人集成Trace功能,有性能问题机会被自动拉出集群采集Trace用于性能分析对用户而言,使用Clog

    43620

    腾讯业的修炼之路「二」

    概述 本文作为产品的专题系列的第二篇文章,主要讨论的是IAAS层的(性能、网络设备性能、网络流量分析等等),从前文所述的类型来说,IAAS层一般来说属于基础层面。 、包量、错包端口 对于同样也是从、性能容量这几个维度入手。虽然SNMP也可以用于,但相对于agent主动上报指标数据会少很多。 主要包含是否ping的通、agent上报是否超时电源运行等等。 后续文章主题告:数据银行 CMDB的建设形各异的公有云组件通用模型建设之路 总结 IAAS层的从IAAS层的组成这个维度来说,可以分为一个个独立的资源对象来分类,针对每一类对象可以分别从

    1.7K20

    Flink Forward 2018 - 流计算平台的运维优化分享

    腾讯云大数据团队参加了会议并在会上介绍团队在公有云流计算平台化过程中的一些运维经验。 SCS 的系统已经过了3个阶段的发展,不同阶段面对不同的挑战、解决不同的问题:简单的系统,解决了从无到有的问题;基于经验规则的智能系统,可以做到提前和自动在线优化;基于机学习的智能系统 基础系统这是一个比较简单的事后系统,Flink 作业通过 PerJob 模式在 Yarn 上运行,支撑周期性检查 Yarn Application 以及 Flink Job 的,当发现异常时发送告 显然只有作业异常了才发送告,没有提前以及在线优化的能力,的不完善导致 SCS 在第一阶段遇到了不少挑战,部分总结如下:告不及时:收到告时作业已处于异常,SCS 需要能力,提前识别潜在的作业异常 Metrics 的深度分析,加入更多的机学习算法测潜在的问题,打造更加智能化的系统;其次是提供自动化的在线弹性伸缩能力,实时跟踪测业负载,自动进行在线低延时动扩缩容;最后是完善作业日志的实时收集和分析

    1.3K110

    爱奇艺在日志实时数据的探索实践

    爱奇艺会员团队基于线上实时日志,抽取相应指标,进行了体系的迭代。本文将分享一下会员团队在日志实时数据的探索实践。 目前会员分为基础及上层,基础依赖于shell脚本,进行数据上报,相关指标(CPU、内存、线程数等);上层依赖于各层日志数据,各业的网络、成功率、RT时间、业异常、 例如下图中,通过报截图可知单台机499码占比过高,引起成功率降低,排查方向可确定为这台机问题,极大提高排查效率。 ? 业访问日志:业返回的码,可从业角度实时,提取ERROR日志,进行实时分析告;比如会员鉴权业,Code-Q00508代表平台值不匹配,对应业可能存在编辑划价错误;实现方式同异常告相似 价值未来规划爱奇艺会员团队供通用化平台,接入方式简单,可快速对系统搭建以上体系,并可以面向公司的其他业团队

    21520

    徒手教你制作运维大屏

    公司业的不断发展,紧接而来的是业种类的增加、数量的增长、网络环境的越发复杂以及发布更加频繁,从而不可避免地带来了线上事故的增多,因此需要对到应用的全方位,提前。   建立在Zabbix上的、基础应用(mysql、redis、ES等)、功能 基本满足底层的要求,超过设定的阀值就会提前通知相关人员去解决。   微相关的用Prometheus生工具,查看容应用的CPU、内存、JVM等相关指标。   还有的链路APM,对分布式应用程序集群的业运行情况进行追踪、告和分析的系统,查看微间的调用链路。   综合大屏展示  以上内容都是分模块的,现在想把、业访问流量、容放在一个大屏内显示,每一块都来各自的数据源。

    90340

    zabbix基本概述

    :www.zabbix.comdocumentation4.2manualdefinitions#特点1、安装配置简单2、支持多种语言,免费开源3、自动发现网络设备分布式以及web集中管理功能 如交换机、路由、打印机等2.系统。如CPU,内存,磁盘。硬盘IO,系统负载等3.。如apache,nginx,tomcat,redis,TCP连接数等4.性能。 如网站性能,性能,数据库性能5.日志。如访问日志,错误日志6.安全。如用户登录数,本地文件改动,passwd文件变化7.网络。 聚合图表 Maps 拓扑图 拓扑图展示Slide shows 幻灯片演示 #告相关Trigger 触发的项达到指标时,就触发报Event 事件 告的变化,客户端注册成功都是事件 Problem 异常 OK 正常 Action 操作 根据事件以及条件定义的一系列动作Escalation 升级 Media 媒介 指告通知的方式,短信,邮件,微信Notification 通知

    27320

    体系建设(完整)

    2)系统层:包括系统、存储等的可用性。3)系统及网络层:系统及网络层主要是指操作系统、系统软件、网络软件的使用情况。 4)应用可用性:如、端口是否存在,是否假死等应用营业:指应用的是否满足业开业应用性能:应用处理能力,比如交易量、成功率、失败率、响应率、耗时应用交易:比如交易主动埋点 500,登录成功率96%”,由于登录成功率并未明显下降,可能是由于业作了业推广,运维人员只需关注当前应用运行再做判断;代表事件需要运维人员处理,但重要性略低,比如“CPU使用率71%,增长趋势非突增 这样,就可以将基线做一个运行,把实际运行的多个指标数据关给基线,基线返回当前运行好坏。 ,对工单阀值进行分析调整;• 优化短信内容,提高短信对事件定位;• 完成动基线的功能上线功能,提高准确率;• 完成应用部署维护期关联,减少未设置维护期导致的;• 完成应用启停集中处理

    2.3K60

    后端线上方案

    综上,我们必须要有一套自动化的线上方案,主动发现,及时跟进! 二、范围为了能对线上况了如指掌,我们需要的内容一定得是很全的,但一开始得有一个重点的范围,也是平时最容易出问题的地方:编码粗心导致的PHP SyntaxParse Error程序代码中的 错误栈对应的接口名称IPMemcache、Redis错误具体错误号(内容)出错的Memcache Key错误栈对应的接口名称IP同时,我们通过一个统一工具方法进行收集错误日志,下面说如何收集 ,另外开启一个队列实时消耗进程,将队列中的错误日志数据上报到进行处理。 ($type, $content) { 线上集群,并且开关处于打开,才进行收集 if (Utilities::isOnlineCluster() && SwitchManager::getSwitch

    87520

    相关产品

    • FPGA 云服务器

      FPGA 云服务器

      腾讯FPGA云服务器是基于FPGA硬件可编程加速的弹性计算服务,您只需几分钟就可以获取并部署您的FPGA实例。结合IP市场提供的图片,视频,基因等相关领域的计算解决方案,提供无与伦比的计算加速能力……

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券