展开

关键词

失效那些事

引言出现是大家都非常关心的,而由CPU,内存,磁盘,主板,电源等多种部件组成,一定会有一定的失效。本文介绍失效的特性及一些部件的失效标准,探讨失效对业的影响。 经常会有运维同事说,我刚拿到几周的新上架就出现了,为什么这么新的了?那么我们就来聊聊的失效,各个部件的失效特性以及在什么水平的失效算正常失效。 2、并不是越新的越稳定。失效本身符合浴盆曲线特性,在新机使用的前3到4个月,都会偏高一些,在接下来的2年时间里,失效会下到一个更的状态,直到过保期,又会大幅增长。 所以重要的数据和,必须要有热备才能防止数据丢失或中断。有哪些失效对业的影响的方案?虽然失效是无法避免的,但是我们可以想办法失效的影响。 后续针对RAID失效、电源失效、风扇失效等的预警也会逐步推出,可以极大的的影响。

1.9K50

如何快速处理线上

线上处理的过程也一样,优先级从高到,线上处理的目标如下:跳坑“跳坑”——快速恢复线上,或者将对线上的影响到最。线上的可用性决定着者的客户利益,影响着公司的收益。 为此,遇到生产后的第一要是:恢复生产,即使不能完全恢复线上,也要想尽办法将对线上的影响到最。填坑“填坑”——找到问题原因,根本上解决问题。 在无法快速找到原因的时候,需要果断跳过定位环节,直接进行排除,比如采用级、扩容等手段,确保对线上到最且可控。 本的吞吐量,是否出现下?本的时延,是否出现突然增大?TCP的链接情况,是否存在大量的CLOSE_WAIT?的cpu使用,是否突然飙升?的disk,磁盘空间是否已经用完? bug,或者出现了io瓶颈等;业访问量并未增加,但是时延下,吞吐量下错误增加,且TCP的CLOSE_WAIT增大,这时候需要怀疑下游依赖是否异常;业访问量并未增加,大范围不可用

62460
  • 广告
    关闭

    2021云+社区年度盘点发布

    动动手指转发活动或推荐好文,即可参与虎年公仔等百份好礼抽奖!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    硬盘预测实践

    理论上役时间越长的发生的几也将越大,从腾讯全网的统计结果也表明老龄化的加剧,会加速上升,特别是使用年份超过4年的设备将出现陡升的情况,显而易见高的老龄化设备将对现网业造成巨大的影响 我们的使用年限超过5年后,硬盘都是非常高。?于是乎,想快速有效的的影响,核心就在于硬盘的影响。 当前业界采用更多的是在线监控和后自动修复,不能修复则只能换盘,并做业迁移,虽然这一定程度上也起到了一些作用,了数据丢失的风险和对业的影响,但毕竟有点马后炮了。 成功预测的硬盘数量,粗略估算已覆盖SATA硬盘数的50%左右,进而促使5年以上对业影响的硬件整体也下了0.5%。 当然,我们也会与厂商和设备供应商一起紧密合作,在FW和介质底层更深入的分析硬件失效的原理,对持续发起挑战。

    4.6K90

    腾讯数据中心供电系统节能最佳实践

    我们再以某个大型数据中心为例,采用UPS供电区域的如图6蓝色曲线所示(包含了所有事件,如重启、硬盘、主板等等),而240V高压直流供电区域内的同样如红色曲线所示,两者的对比结果表明 ,采用240V高压直流供电的机房不但没有增加,实际反而还会更些,这个结果在腾讯全国多个数据中心内都有类似验证。? 图6 UPS供电和240VHVDC供电对比因此,从腾讯数据中心的应用实践经验上看,采用240V高压直流给普通供电,不但不会导致提升,甚至还略些,且截至目前没有任何因为采用了高压直流供电后出现批量 图7 腾讯数据中心基础设施原因次数比例我们继续从基础设施导致掉电总数量的层面来分析,高达41%的掉电原因是UPS,虽然UPS发生次数占比仅仅9%,但其中某次UPS就影响到了上千台掉电 从IT设备侧统计,采用240V高压直流供电的机房不但没有增加,反而还会更些;从数据中心基础设施侧统计,虽然UPS发生次数占比仅仅9%,但高达41%的掉电原因是UPS导致,相比之下

    1.3K40

    当我们讨论性能测试时,我们在说什么?

    请求响应时间=请求发送耗时+请求解析耗时+请求处理耗时+处理结果返回耗时提高处理能力和响应时间,有很多技术方案可以实现,比如:提高网络传输速、优化请求传输方式(串行→并行→连接复用→管道化)、增加缓存 解耦,通过主从模式、系统集群负载均衡、双机双工、分布式等方式,来保证系统在高可用的同时,恢复时间。 恢复能力:即系统能否从出错或中及时恢复正常水平的能力。 一般来说会根据的严重等级和优先级,确定不同等级的需要在多久时间内恢复正常提供的能力。 ,以及具备冗余及自动切换能力;②、监控到发生时,系统需要具备及时隔离、级、快速切换的能力;③、主从热备,多机冷备,异地多活等措施;总结回到开头提到的内容:技术的存在是为了解决实际的业发展中遇到的问题和痛点

    16410

    双活数据中心南北互通 互联港湾立足全国

    具体优势如下: (1)资源利用高。通过高效合理的的资源整合,避免常年闲置数据中心造成的资源浪费,因此,分布式双活数据中心具有双倍的能力。 (2)影响小。 一个数据中心发生中断时,可在用户无感知的情况下切换到其他数据中心,其他的数据中心仍可独立运行相应业,将影响到了最。? 数据的备份由应用程序进行,只需把关键的账数据变动增量同步传送过去,提高了远程备份的可靠性并了操作难度。 在互联港湾高可用集群环境下,若某台导致中断,预先设定的接管会自动接管相关应用并继续对用户提供,具有更高的可用性和可靠性。? 此外,互联港湾远程备份解决方案真正实现异地容灾,每个单元间集齐基础设施、应用系统和数据库,提高业处理效异地数据交互的频,提高业系统对网络延时的适应性,提高数据异地交互的效,高效实现双活数据中心

    30020

    探秘腾讯网络备件管理演进

    "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、行业动态信息,同时分享腾讯在网络与领域,规划、运营、研发、等层面的实战干货 一 网络备件模式厂商备件即由网络设备供应商提供硬件维保(软件+备件),发生设备硬件时由厂商将备件寄送至机房支撑处理。 厂商备件成本=设备数量*硬件维保价格*设备折旧年数自有备件成本=备件采购+备件补充+设备数量*软件价格*设备折旧年数三 精细化的备件管理为了提供更好的备件备件成本,我们朝着精细化的备件管理演进 厂商备件管理方面,随着架构的优化和整体运营能力的增强,我们选用不同等级的厂商备件,将城域网核心设备等级从7*24*4至7*24*NCD,备件成本。 自有备件管理方面,在接入层备件实行部件化管理,当交换机电源、风扇出现时仅需更换同型号的电源和风扇,而不用更换整机,省去了处理过程中机上下架、设备配置导入等环节,提升了处理效同时也节省了成本

    67370

    Docker 在游戏业中的应用介绍

    比如:对于分区分的游戏来说,往往大区的在线分布很不均衡,为了减少日常维护的复杂度,业基本上都会维护一致的区架构,这样对于在线比较的大区,负载就会比较严重。 周边系统同步效扩缩容或者处理,运维在拿到交付的容后,往往还需要同步周边系统的权限,比如:tgw、vasky、安全等。 比如:为满足业替换、快速扩容等紧急情况而搭建的特定集群,一般不支持业的常规替换、搬迁等时效比较,并且资源流转也比较慢的需求。 而拥有镜像容之后,业在机时,则可以直接走镜像容的创建和替换,直接在新容上进行业恢复,不再等待的重启和恢复。流程相对简单,也比较容易实现自动化,或者跟现有的自愈流程结合。 效提升: 通过Image恢复,除了流程上的简单高效外,还存在并发优势,因为容或者虚拟机都依赖母机硬件,所以会出现多台机同时异常的情况。

    1.1K00

    2018-11-05 如何在「不可靠」硬件上实现金融级高可用?

    imageOceanBase同城三机房部署在三机房部署模式下,单个甚至单个机房(不论其中是否有主库),OceanBase都不会停止,数据也不会有任何损失,任何网络只要不导致三个机房两两之间的网络都断开 由于主库粒度小,OceanBase的主库可以均匀分布到两个主机房,因此正常情况下两个主机房的数据库以及其中的应用都处于工作状态,提高了的利用,并了成本。 imageOceanBase两地三机房部署两地三中心部署下,任何单机或单机房(不论其中是否有主库),OceanBase都不会停止,数据也不会有任何损失,任何网络只要不导致三个机房两两之间的网络都断开 由于主库粒度小,OceanBase的主库可以均匀分布到主城市的两个机房,因此正常情况下两个机房的数据库连同其中的应用都处于工作状态,进一步提高了的利用,并了成本。 由于主库粒度小,OceanBase的主库可以均匀分布到两个主城市的四个机房,因此正常情况下四个机房的数据库以及其中的应用都处于工作状态,更进一步提高了的利用,并了成本。

    25820

    SpringCloud-Hystrix【解决灾难性雪崩】

    在微环境中,因为一个节点的而造成的其他节点的不可用的情况是比较常见的,这也就是我们常说的灾难性雪崩现象,而Hystrix给我们提供了解决这种情况的方案。 当某种请求增多,造成T的情况时,会延伸的造成U不可用,及继续扩展,如下?最终造成下面这种所有不可用的情况? 详细介绍:https:dpb-bobokaoya-sm.blog.csdn.netarticledetails914528792.缓存  Hystrix 为了访问的频,支持将一个请求与返回结果做缓存处理 如果再次请求的 URL 没有变化,那么 Hystrix 不会请求,而是直接从缓存中将结果返回。这样可以大大访问的压力。 详细介绍:https:dpb-bobokaoya-sm.blog.csdn.netarticledetails914751824.熔断  当失败(如因网络超时造成的失败高)达到阀值自动触发级,

    53120

    反思一次Exchange运维

    处理面临最重要的就是尽快通过排除法进行排除以实现的最快恢复。因此首先要做的排除。由于已经是下班时间,事虽然重大,但还尚未造成重大影响。 (2)错误:Microsoft Exchange 传输拒绝邮件提交,因为可用磁盘空间已至配置的阈值之下。确认和修复    已经确认为磁盘空间问题导致的触发Exchange的“反压”保护策略。 当系统资源使用恢复到正常级别后,Exchange 就可以逐渐恢复正常运行。     以下摘录自事件查看:    Microsoft Exchange 传输拒绝邮件提交,因为可用磁盘空间已至配置的阈值之下。     此是配置了Zabbix监控报警的,而且Zabbix已经监测到并发送报警,由于没有及时的处理才导致本次的发生。 就算是接盘也要痛改前非。

    75830

    排除和本地开发

    排除以下是一些常见的安装问题,以及建议的解决方法。 ;该教程给出了404错误:(你无法使用PHP的内置Web来学习本教程。它不处理正确路由请求所需的`.htaccess`文件。解决方案:使用Apache为你的站点提供。 本地开发PHP 提供了一个内置的可以在本地使用进行开发的 Web ,免去了安装如 MAMP,XAMPP 等独立 Web 的需要。 如果你在你的开发机上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000这将启动,并且你可以在浏览中访问 http:localhost:8000 来查看你的应用程序。

    25610

    同是维保商,工作效为何差距这么大?

    所有的在售出的整个使用周期内 都需要不间断的监控和维护来保证其正常运行。当硬件设备发生时必须保证设备能得到及时修复,若处理不当所造成的损失将是无法估量的。 而第三方维保商相较于原厂因稍的价格和定制化的全面周到,获得了不少用户的青睐。 普通的维保工作:(以硬件维保为例)工程师巡检发现或是用户自发现问题电话通知商后,由商派工程师上门排查,找到设备,并查看设备的PN号将设备带回。 PIGOSS TOC +BSM  帮助维保商提高工作效运维成本用户机房部署PIGOSS BSM,维保商运维中心部署PIGOSS TOC .当BSM监控到某硬件设备出现问题后,直接将信息主要是设备的 TOC+BSM模式让工程师在很短时间内准确地排除解决问题,大大缩短宕机时间,提高修复。全天候实时监控,随时随地通过TOC查看每个的运行情况。

    33850

    老司机告诉你:正规的运维工作是什么的?

    5.选型、交付和维护负责的测试选型,包含整机、部件的基础性测试和业测试,整机功,提升机架部署密度等。结合对公司业的了解,推广新硬件、新方案减少业投入规模。 负责硬件的诊断定位,硬件监控、健康检查工具的开发和维护。 4.数据库监控完善数据库存活和性能监控,及时了解数据库运行状态及。数据库安全建设数据库账号体系,严格控制账号权限与开放范围,误操作和数据泄露的风险;加强离线备份数据的管理,数据泄露的风险。 5.数据库高可用和性能优化对数据库单点风险和设计相应的切换方案,对数据库的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保成本不增加或者少量增加的情况下 这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而了工作效

    37230

    运维工作到底是做什么的?

    5.选型、交付和维护负责的测试选型,包含整机、部件的基础性测试和业测试,整机功,提升机架部署密度等。结合对公司业的了解,推广新硬件、新方案减少业投入规模。 负责硬件的诊断定位,硬件监控、健康检查工具的开发和维护。 4.数据库监控完善数据库存活和性能监控,及时了解数据库运行状态及。数据库安全建设数据库账号体系,严格控制账号权限与开放范围,误操作和数据泄露的风险;加强离线备份数据的管理,数据泄露的风险。 5.数据库高可用和性能优化对数据库单点风险和设计相应的切换方案,对数据库的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保成本不增加或者少量增加的情况下 这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而了工作效

    1.5K30

    史上最全互联网运维工作规划!十分钟找到职业方向!

    选型、交付和维护负责的测试选型,包含整机、部件的基础性测试和业测试,整机功,提升机架部署密度等。结合对公司业的了解,推广新硬件、新方案减少业投入规模。 负责硬件的诊断定位,硬件监控、健康检查工具的开发和维护。 数据库监控完善数据库存活和性能监控,及时了解数据库运行状态及。数据库安全建设数据库账号体系,严格控制账号权限与开放范围,误操作和数据泄露的风险;加强离线备份数据的管理,数据泄露的风险。 数据库高可用和性能优化对数据库单点风险和设计相应的切换方案,对数据库的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保成本不增加或者少量增加的情况下 这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而了工作效

    3.7K110

    常见的微

    应该让的开发人员针对其微中,自己发现完整的根本原因和,即他们收到的告警,将来自其微的关键指标的变更触发(有关监视、日志记录、告警和微密钥指标的详细信息)。 这时你需要多个转移Failover 代码审查Code Review不完整、缺乏适当的测试覆盖以及不规范开发流程(具体来说,缺乏标准化开发流程)会导致将错误代码部署到生产环境中,而通过跨微团队标准化开发流程是可以避免 如果没有一个稳定可靠的部署管道,其中包含Staging、金丝雀和生产阶段的设置,在将任何错误完全部署到生产之前捕获任何错误,在开发阶段测试未捕获的任何问题都可能导致微本身、其依赖项以及依赖于它的微生态系统的任何其他部分出现严重事件和中断 这也是微中的常规和特定代码错误会导致以及不正确的错误和异常处理:当微失败时,未处理的异常是经常被忽视的罪魁祸首。最后,如果未做好突发增长做好准备,流量的增加可能会导致失败。 总结一些最常见的微包括:• 不完整的代码审查• 糟糕的架构和设计• 缺乏适当的单元和集成测试• 部署错误• 缺乏适当的监控• 错误和异常处理不当• 数据库• 可伸缩性限制注意:我们不能依赖容编排平台

    8210

    钢铁电商行业方案:钢铁工业企业智能远程运维系统解决方案

    设备时间,提高生产效,减少工业现场人员维护量,缓解目前维护人员日益减少的状况,提高维护人员的可流动性。 运用智能化改造和应用互联网技术,解决钢铁行业不能及时对设备进行有效维护的难题,提高了设备有效运维时间和效设备运维成本。  钢铁行业智能远程运维系统能够使设备运行状态信息及信息一目了然,迅速找到解决方法,对进行及时准确处理,设备时间,减少现场人员维护量,提高维护人员的可流动性。  远程运维,成本——采集钢铁工业设备的报警履历、运行状态和关键工艺参数,在本地缓存同时也实时上传到用户云平台。 ,快速客户,减少备品备件库存和帮助用户提高机床使用效

    45520

    后台开发必备知识——过载、过载保护、过载预防

    过载与雪崩过载: 系统负载超过系统最大的处理能力。雪崩: 的处理能力陡于系统原本能达到的最大处理能力。 这时可能会发生大量的请求重试或系统内部重试,进一步加剧系统负载,产生恶性循环,导致系统处理能力急剧下雪崩)。 如图所示,假设系统的负载为600请求秒,当请求数超过600时,由于发生了大量的内部重试和资源竞争,能够有效返回的请求数会发生陡,最后远于600.这就是我们所的雪崩。 系统过载的原因访问量过大,(某个时间内访问量过大,或突增)系统内部瓶颈、。(系统内部会导致系统的处理能力下,从而容易引发过载。)后端、延迟。 重试频控制系统过载时,由于请求发生延时,前端通常会发起重试,如果重试频过大,则必然造成雪崩。因此可以通过限制请求的访问频,避免过载或雪崩。

    2.9K40

    万亿级数据洪峰下的分布式消息引擎

    这里的慢请求是指排队等待时间以及时间超过某个阈值的请求。对于离线应用场景,容错处理就是利用滑动窗口机制,通过缓慢缩小窗口的手段,来减缓从端拉的频以及消息大小,端的影响。 而对于那些高频交易,数据复制场景,则采取了快速失败策略,既能预防应用连锁的资源耗尽而引发的应用雪崩,又能有效端压力,为端到端延迟带来可靠保级是一种典型的丢卒保车,二八原则实践。 —孙武 虽然有了容量保的三大法宝作为依托,但随着消息引擎集群规模的不断上升,到达一定程度后,集群中机的可能性随之提高,严重消息的可靠性以及系统的可用性。 相反,MasterSlave结构中的同步复制模式会以增大数据写入延迟、系统吞吐量的代价来保证机时数据不丢,同时系统恢复时间。5. 同时引入自动恢复机制以恢复时间,提升系统的可用性。

    39630

    相关产品

    • 云服务器

      云服务器

      腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券