展开

关键词

失效那些事

引言出现是大家都非常关心的,而由CPU,内存,磁盘,主板,电源等多种部件组成,一定会有一定的失效。本文介绍失效的特性及一些部件的失效标准,探讨降低失效对业的影响。 经常会有运维同事说,我刚拿到几周的新上架就出现了,为什么这么新的了?那么我们就来聊聊的失效,各个部件的失效特性以及在什么水的失效算正常失效。 我们先介绍一个词:MTBF,即间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电产品)的可靠性指标,单位为“小时”。 我们用λ表示,那么的倒数就叫做间隔时间(Mean Time Between Failures),即:MTBF=1λ。 这个数据表达的是这款硬盘的一个,根据公式λ=1MTBF可以算出,为λ=12,000,000,换算成年的话,为λ=12,000,000*24*365=0.44%。

1.9K50

硬盘预测实践

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、行业动态信息,同时分享腾讯在网络与领域,规划、运营、研发、等层面的实战干货 理论上役时间越长的发生的几也将越大,从腾讯全网的统计结果也表明老龄化的加剧,会加速上升,特别是使用年份超过4年的设备将出现陡升的情况,显而易见高的老龄化设备将对现网业造成巨大的影响 我们的使用年限超过5年后,硬盘都是非常高。?于是乎,想快速有效的降低的影响,核心就在于降低硬盘的影响。 或许这些配置信息能给出一些统计结果,我们想要的是即将的硬盘,而不是这些差异性不大的各个集合的整体。 成功预测的硬盘数量,粗略估算已覆盖SATA硬盘数的50%左右,进而促使5年以上对业影响的硬件整体也下降了0.5%。

4.6K90
  • 广告
    关闭

    90+款云产品免费体验

    提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何实现系统的可扩展性和高可用性

    协议(SLA) SLA是谈判条款,概述了涉及交付和使用系统的双方的义,如: 系统类型(虚拟或专用,共享托管) 可用性级别 最低限度 目标 正常运行时间 网络 功 维护窗口 操作性能 性能和指标 Web应用程序和通常通过遵循循环调度规则进行衡,但也可以基于最少连接、IP hash或多个其他选项进行衡。通过应用频规则和到期算法来衡缓存池。 无状态请求以任何数量的的统一概到达的应用可以使用伪随机调度。 图4:粘性负载负载的常见特性 不对称负载分配 - 分配一些来处理比其他更大的负载 内容过滤:入站或出站。 分布式拒绝(DDoS) 攻击防护 防火墙。 图11:主 备容错和恢复企业系统通常通过将转移到备分系统并将其尽快上线,通过透明度实现主 备容错和恢复。机人和生命关键系统可以实现概,线性模型,隐藏和优化控制系统。

    6.5K100

    反思一次Exchange运维

    发现    昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),现象为:Exchange内网收发邮件正常,外网发送正常 因为邮件是企业核心之一,加之已经有同事反馈遇到问题,因此此应该是重要紧急,必须尽快排除以恢复。注1:如果问题比较严重或者有紧急事件处理流程规定,应该按照流程汇报上级领导和发出通告。 处理面临最重要的就是尽快通过排除法进行排除以实现的最快恢复。因此首先要做的排除。由于已经是下班时间,事虽然重大,但还尚未造成重大影响。 当系统资源使用恢复到正常级别后,Exchange 就可以逐渐恢复正常运行。     此是配置了Zabbix监控报警的,而且Zabbix已经监测到并发送报警,由于没有及时的处理才导致本次的发生。 就算是接盘也要痛改前非。

    75830

    排除和本地开发

    排除以下是一些常见的安装问题,以及建议的解决方法。 ;该教程给出了404错误:(你无法使用PHP的内置Web来学习本教程。它不处理正确路由请求所需的`.htaccess`文件。解决方案:使用Apache为你的站点提供。 本地开发PHP 提供了一个内置的可以在本地使用进行开发的 Web ,免去了安装如 MAMP,XAMPP 等独立 Web 的需要。 如果你在你的开发机上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000这将启动,并且你可以在浏览中访问 http:localhost:8000 来查看你的应用程序。

    25610

    腾讯云联合浪潮发布白皮书, 助力大规模数据中心高效稳定运行

    》,其中腾讯云与浪潮联合研发的TIFDS系统架构,为大规模数据中心提升运维效,保数据中心稳定运行提供重要参考。 以腾讯云数百万运营数据和浪潮深厚的固件研发专家经验库为基础,“TIFDS”系统可利用AI技术对海量运行数据实时分析,对各类部件实时预警,诊断“火眼金睛”,自动明确化提升至95% 以上,远超业界。 云计算的快速扩张带来了数据中心数量的爆发式增长,传统的运营面临着更大的挑战和更高的成本,从最初的脚本运维、工具运维到台运维,人力已接近极限,逐渐无法满足快速修复以及恢复业运行的要求 腾讯云在全球数据中心数量早已超过百万台,此次发布的TIFDS系统,不仅能大幅提升自身数据中心的运维效,为腾讯云台的稳定运行提供坚实的技术支撑,也将为各类新兴应用在公有云台的大规模落地提供良好的技术储备

    16530

    常见的微

    应该让的开发人员针对其微中,自己发现完整的根本原因和,即他们收到的告警,将来自其微的关键指标的变更触发(有关监视、日志记录、告警和微密钥指标的详细信息)。 这时你需要多个转移Failover 代码审查Code Review不完整、缺乏适当的测试覆盖以及不规范开发流程(具体来说,缺乏标准化开发流程)会导致将错误代码部署到生产环境中,而通过跨微团队标准化开发流程是可以避免 当我们台缺少微应用层监控时,不能及时收到告警,做出决策,最终可能会引起大规模的微实例失败。 那些本身模块或设计有问题,如不规范的程序重试逻辑,不正确的缓存使用场景。 这也是微中的常规和特定代码错误会导致以及不正确的错误和异常处理:当微失败时,未处理的异常是经常被忽视的罪魁祸首。最后,如果未做好突发增长做好准备,流量的增加可能会导致失败。 总结一些最常见的微包括:• 不完整的代码审查• 糟糕的架构和设计• 缺乏适当的单元和集成测试• 部署错误• 缺乏适当的监控• 错误和异常处理不当• 数据库• 可伸缩性限制注意:我们不能依赖容编排

    8210

    3.9 基于流程指标的数据运营

    (1)运营类流程:事件管理、台事件管理相关指标:发现时长响应时长定位时长恢复时长监控发现量一线支持解决事件二线支持响应时长绕过一线支持的事件反馈量主动解决客户满意度 ……台相关指标:台每天响应事件数台一次解决问题量升级到二线三线支持的事件量客户满意度等待时长主要问题类型的占比(可选几类主要占比的类型)知识库匹配度请求转事件……(2)转换类流程 目标的系统(可用性)、(请求)数量升级数量SLA变更数量客户满意度……可用性管理相关指标:业系统模块组件不可用时长宕机恢复时长重复性数量系统间隔时长关键时段时长……(4)战略类流程 :业关系管理业关系管理相关指标:投诉量与SLA客户正式或非正式沟通数量SLA客户反馈问题整体解决客户满意度……(5)具体指标的要素分析以“事件管理”流程的“发现时长”为例。 在“发现时长”的具体设计中,包括:名称为发现时长描述为生产在真实发生后到被运维机或人第一时间发现的时长,理论上机能更快发现。流程与指标的负责人是流程经理。

    14920

    京东面试官问我什么是负载衡,我这么说怼翻他

    它将负载(工作任,访问请求)进行衡、分摊到多个操作单元(,组件)上进行执行。是解决高性能,单点(高可用),扩展性(水伸缩)的终极解决方案,具体模式如下图:? 当其中某个发生第二到第7 层的,BIG-IP 就把其从队列中拿出,不参加下一次的用户请求的分配, 直到其恢复正常。? 03优先权(Priority):给所有分组,给每个组定义优先权,BIG-IP 用户的请求,分配给优先级最高的组(在同一组内,采用轮询或比算法,分配用户的请求);当最高优先级中所有出现 当其中某个发生第二到第7 层的,BIG-IP就把其从队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。 五、健康探测不管是什么样的策略,难免会遇到机或者程序的情况。所以要确保负载衡能更好的起到效果,还需要结合一些「健康探测」机制。定时的去探测端是不是还能连上,响应是不是超出预期的慢。

    62430

    云原生背景运维转型之 SRE 实践

    这篇内容我想谈谈 DevOps 的下半段,通过我们的构建稳定性保实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(时间间隔)、降低 MTTR(修复时间 Time To Acknowledge)确认时间,强调团队的 OnCall 机制执行,以及制度与技术的配套; MTTL (Mean Time To Location)定位时间,要求团队对的分析与解决问题经验的积累 )验证时间,围绕体验为核心的监测体系,建立与业、用户的反馈机制。 总结起来,玄图混沌工程演练台,提供实验编排、执行、观察、记录一站式,将演练的耗时从小时级缩短到分钟级,相对于手工演练效提高了 10 倍以上。 图6.3 - 精简流程,提升效 2)注入原子 玄图混沌台能够模拟的非常丰富,通过原子组合可以模拟出云异常,机,操作系统,网络,应用层,以及根据特定场景定制的等。

    6610

    《NB-IoT 端到端优化分析》

    eNodeB无线通信阶段、终端和核心网的NAS阶段、终端和IOT台之间的数据传输阶段、IOT台和应用的数据传输阶段;三层:通过用户->会话->消息逐层分析的方法,首先定位到用户级别的问题,然后利用时间节点确定 步骤一:当某些用户的业发生异常时,从应用导出异常用户的IMEI、IMSI或者终端号码等信息;步骤二:在IOT台和应用之间进行抓包,根据包序号确认在IOT台和应用之间异常用户是否有发生过丢包的现象 确认问题发生的范围是否集中;问题发生的时间点是否集中;以灯杆为例说明:从灯杆的可以看到的业信息如下:Check检查项Check结果举例业类型智能灯杆业成功98%业时长20180203 MME关键告警UGW关键告警继承LTE告警:M3UA链路M3UA路由不可用M3UA目的实体不可达系统业资源过载单个DNS无响应所有DNS无响应GTPC路径Diameter链路Diameter 次数忙时每用户发送寻呼Service Request次数忙时包长忙时每激活的Bearer吞突量SGi接收用户面报文峰值速SGi发送用户面报文峰值速 基站1、告警排查告警排查达标标准:基站当前没有影响业的重要活动告警

    67310

    F5负载

    当其中某个发生第二到第7层的,BIGIP就把其从队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。 优先权(Priority):给所有分组,给每个组定义优先权,BIGIP用户的请求,分配给优先级最高的组(在同一组内,采用轮询或比算法,分配用户的请求);当最高优先级中所有出现,BIGIP 当其中某个发生第二到第7层的,BIGIP就把其从队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。 观察模式(Observed):连接数目和响应时间以这两项的最佳衡为依据为新的请求选择。 当其中某个发生第二到第7层的,BIGIP就把其从队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。

    90620

    美团即时物流的分布式系统架构设计

    前端流量会通过HLB来分发和负载衡;在分区内,会通过OCTO进行通信,提供注册、自动发现、负载衡、容错、灰度发布等等。 第三是我们一直在花精力解决的事情,就是保集群高可用,主要从三个方面来入手,事前较多的是做全链路压测评,估峰值容量;周期性的集群健康性检查;随机演练(、机、组件)。 事中做异常报警(性能、业指标、可用性);快速的定位(单机、集群、IDC、组件异常、异常);前后的系统变更收集。事后重点做系统回滚;扩容、限流、熔断、降级;核武兜底。?? 如果流程不明确不连贯,会出现迭代效低,特征、模型的应用上线部署出现数据质量等碍问题。?JARVIS是一个以稳定性保为目标的智能化业运维AIOps台。 此外,过往小规模分布式集群的运维主要靠人和经验来分析和定位,效低下,处理速度慢,每次处理得到的预期不稳定,在有效性和及时性方面无法保证。所以需要AIOps台来解决这些问题。?

    34640

    美团即时物流的分布式系统架构设计

    前端流量会通过HLB来分发和负载衡;在分区内,会通过OCTO进行通信,提供注册、自动发现、负载衡、容错、灰度发布等等。 第三是我们一直在花精力解决的事情,就是保集群高可用,主要从三个方面来入手,事前较多的是做全链路压测评,估峰值容量;周期性的集群健康性检查;随机演练(、机、组件)。 事中做异常报警(性能、业指标、可用性);快速的定位(单机、集群、IDC、组件异常、异常);前后的系统变更收集。事后重点做系统回滚;扩容、限流、熔断、降级;核武兜底。 如果流程不明确不连贯,会出现迭代效低,特征、模型的应用上线部署出现数据质量等碍问题。 JARVIS是一个以稳定性保为目标的智能化业运维AIOps台。 此外,过往小规模分布式集群的运维主要靠人和经验来分析和定位,效低下,处理速度慢,每次处理得到的预期不稳定,在有效性和及时性方面无法保证。所以需要AIOps台来解决这些问题。

    64120

    美团即时物流的分布式系统架构设计

    前端流量会通过HLB来分发和负载衡;在分区内,会通过OCTO进行通信,提供注册、自动发现、负载衡、容错、灰度发布等等。 第三是我们一直在花精力解决的事情,就是保集群高可用,主要从三个方面来入手,事前较多的是做全链路压测评,估峰值容量;周期性的集群健康性检查;随机演练(、机、组件)。 事中做异常报警(性能、业指标、可用性);快速的定位(单机、集群、IDC、组件异常、异常);前后的系统变更收集。事后重点做系统回滚;扩容、限流、熔断、降级;核武兜底。?? 如果流程不明确不连贯,会出现迭代效低,特征、模型的应用上线部署出现数据质量等碍问题。?JARVIS是一个以稳定性保为目标的智能化业运维AIOps台。 此外,过往小规模分布式集群的运维主要靠人和经验来分析和定位,效低下,处理速度慢,每次处理得到的预期不稳定,在有效性和及时性方面无法保证。所以需要AIOps台来解决这些问题。?

    42410

    小白入门:大型网站技术架构负载衡技术介绍及学习资源推荐

    在大型的网站集群中,负载衡技术是必不可少的。使用负载衡的技术架构,能够有效避免后端出现单点,提升的稳定性。 一、负载衡简介 负载衡,英文名称为LoadBalance,其意思就是将负载(工作任)进行衡,分摊到多个操作单元上进行执行(例如Web、FTP等),实现多个共同完成工作任的目标 负载衡建立在现有网络结构之上,它提升了的性能、提高了带宽利用,增强了网络的灵活性和可靠性。 2.2、转移通过心跳机制检测判断各个的状态,能够自动剔除不可用的并将请求发送可用,减少出现不可用的概,提高可用性。 对于负载衡的应用程序,当主机出现或者脱机时,会自动在仍然运行的计算机之间重新分发负载。当计算机意外出现或者脱机时,将断开与出现或脱机的之间的活动连接。

    26210

    「架构技术专题」构建网站高可用架构(详细分析篇)(6)

    1、网站可用性的度量与考核网站不可用时间(时间)=修复时间点-发现(报告)时间点网站年度不可用时间=(1-网站不可用时间年度时间)× 100%可用性指标时网站架构设计的重要指标,对外是承诺 对于应用层的通常为了应对高并发的访问请求,会通过负载衡设备将一组组成一个集群共同 对外提供,当负载衡设备通过心跳检测到某台不可用时,就将其从集群列表中提出,并将请求分发到集群中其他 网站升级的频一般都非常高,每次网站发布都需要关闭,重新启动系统,相当于宕机。因此网站的可用性架构还需要考虑到网站升级 发布引起的宕机。 2、Session绑定Session绑定可以利用负载衡的源地址Hash算法实现,负载总是将来源于同一IP的请求分发到同一台上。 具体到监控哪些数据,主要有:1、用户行为日志收集(端和浏览端)2、性能监控(CPU、内存等)3、运行数据监控(缓存命中响应延迟时间、每分钟发送邮件数目、待处理的任总数等)监控数据采集后

    12230

    事中处理(4)定位

    1.已知预案下的恢复三把斧在管理过程中,通常大部分有一些明确的恢复预案,比如基础设施、、网络设备、网络线路,以及应用系统层中关于可用性等因素,以及基于历史经验积累的方案。 为了提升切换效,除了建立切换工具,还要定期进行切换演练,确保切换操作正确性、时效性、可靠性2.启用架构高可用策略架构高可用性通常指系统架构通过专门的设计,从而减少停工时间,而保持其的高度可用性。 不可修复系统的寿命指系统发生失效前的工作时间或工作次数, 也称为系统在失效前的时间,比如基础设施层面的环控、、存储、负载衡设备、网络设备、专线等通常是不可修复系统,这类系统需要在初始阶段进行可靠性设计 在具体的架构高可用性上,我认为对于核心与重要业台或业系统应该首先基于“不可修复系统”的思路,强调在设计、部署层面即要高可靠,比如在网络、安全、存储、硬件、数据库等层面的保证高可用,以及在负载衡 采用数据脚本维护数据采用调整业或技术参数手工启用备份系统或节点针对节点,临时决定启动隔离、限流、降级的恢复策略针对数据库运行状况,决定应急构建索引、杀掉执行中SQL等恢复策略当然,临断型恢复也可以有优化方案来提升恢复效

    13530

    关于内容分发网络 CDN 的可靠性和冗余性

    通过负载衡 Internet 流量、使用智能转移以及通过跨多个数据中心维护,CDN 旨在规避网络拥塞并针对中断具有弹性。What is load balancing? 负载的目的是在多个之间分配网络流量。 负载衡可以基于硬件或软件。 CDN 在数据中心使用负载衡在可用的池中分配传入请求,以确保以最有效的方式处理流量高峰。 CDN 还使用负载衡在资源的可用性上下波动时快速有效地进行更改。 如果发生并发生转移,负载将重定向为分配的流量,并按比例将其分配到其余。 这通过增加硬件不会中断流量的可能性来提供弹性和可靠性。 当数据中心的新上线时,负载会按比例从其他上移除负载并提高新硬件的利用。 在需要高度可靠性和接近连续可用性的计算机系统中,转移用于在不可用时防止流量丢失。 当出现时,流量需要重新路由到仍在运行的

    11240

    腾讯数据中心供电系统节能最佳实践

    备注:这里做对比的UPS选用了行业主流在用的国际一线品牌工频UPS实测效数据,在典型的20%到40%负载段内,不高于90%,虽然其峰值效号称94%以上。 我们再以某个大型数据中心为例,采用UPS供电区域的如图6蓝色曲线所示(包含了所有事件,如重启、硬盘、主板等等),而240V高压直流供电区域内的同样如红色曲线所示,两者的对比结果表明 图6 UPS供电和240VHVDC供电对比因此,从腾讯数据中心的应用实践经验上看,采用240V高压直流给普通供电,不但不会导致提升,甚至还略低些,且截至目前没有任何因为采用了高压直流供电后出现批量 图7 腾讯数据中心基础设施原因次数比例我们继续从基础设施导致掉电总数量的层面来分析,高达41%的掉电原因是UPS,虽然UPS发生次数占比仅仅9%,但其中某次UPS就影响到了上千台掉电 从IT设备侧统计,采用240V高压直流供电的机房不但没有增加,反而还会更低些;从数据中心基础设施侧统计,虽然UPS发生次数占比仅仅9%,但高达41%的掉电原因是UPS导致,相比之下

    1.3K40

    相关产品

    • FPGA 云服务器

      FPGA 云服务器

      腾讯FPGA云服务器是基于FPGA硬件可编程加速的弹性计算服务,您只需几分钟就可以获取并部署您的FPGA实例。结合IP市场提供的图片,视频,基因等相关领域的计算解决方案,提供无与伦比的计算加速能力……

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券