展开

关键词

15_处理

http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e...

5930

硬盘预测实践

背景 伴随着腾讯业的蓬勃发展,近几年数量快速增长,随着时间的推移,现网逐步累积了大批量役年份时间很长的运营面临日益凸显的整体老龄化问题。 理论上役时间越长的发生的几率也将越大,从腾讯全网的统计结果也表明老龄化的加剧,概率会加速上升,特别是使用年份超过4年的设备率将出现陡升的情况,显而易见高率的老龄化设备将对现网业造成巨大的影响 我们的使用年限超过5年后,硬盘率都是非常高。 ? 于是乎,想快速有效的降低的影响,核心就在于降低硬盘的影响。 为了支持我们提供了运营模型设置,主要包括类型,上架年限,健康度,业模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测盘,自动发起流程。 成功预测的硬盘数量,粗略估算已覆盖SATA硬盘数的50%左右,进而促使5年以上对业影响的硬件整体率也下降了0.5%。

4.8K90
  • 广告
    关闭

    腾讯云+社区系列公开课上线啦!

    Vite学习指南,基于腾讯云Webify部署项目。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    细数2020年腾讯云星星海都做了哪些大事件!

    由腾讯云星星海自主设计,结合腾讯云上丰富的应用场景需求,CPU单点的散热能力提升22%,风扇节能达30%,宕机率下降50%,有效保在支撑高密度云计算环境时的性能和稳定性,基于腾讯云星星海首款四路打造的云实例 C5也即将上线。 同时通过腾讯云自研底层软硬协同的全面调优,腾讯云全新的计算型C5机型搭载的极速型云盘性能提升10倍、网络性能提升100%。 腾讯云星星海新一代自研双路通过深度优化定制,计算密度提升50%;通过高性能散热和研发创新独立风道设计,散热方案支持CPU功效提升45%;基于增强的可靠性、可用性和可性(RAS)技术,可多维度全覆盖诊断 、精细化定位等问题明确,使宕机率减少50%。

    26420

    反思一次Exchange运维

    发现     昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),现象为:Exchange内网收发邮件正常,外网发送正常 因为邮件是企业核心之一,加之已经有同事反馈遇到问题,因此此应该是重要紧急,必须尽快排除以恢复处理 面临最重要的就是尽快通过排除法进行排除以实现的最快恢复。因此首先要做的排除。由于已经是下班时间,事虽然重大,但还尚未造成重大影响。 此是配置了Zabbix监控报警的,而且Zabbix已经监测到并发送报警,由于没有及时的处理才导致本次的发生。 就算是接盘也要痛改前非。 虽然有些时候,某些东西偏离了自己的发展方向,但像邮件这样的公司的核心IT系统应该去深入的学习。只有了解和懂得才能遇到问题时更快的解决问题。 每次后总结经验和吸取教训。

    83130

    排除和本地开发

    排除 以下是一些常见的安装问题,以及建议的解决方法。 ; 该教程给出了404错误:( 你无法使用PHP的内置Web来学习本教程。它不处理正确路由请求所需的`.htaccess`文件。 解决方案:使用Apache为你的站点提供。 本地开发 PHP 提供了一个内置的可以在本地使用进行开发的 Web ,免去了安装如 MAMP,XAMPP 等独立 Web 的需要。 如果你在你的开发机上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动,并且你可以在浏览中访问 http://localhost:8000 来查看你的应用程序。

    28310

    常见的微

    应该让的开发人员针对其微中,自己发现完整的根本原因和,即他们收到的告警,将来自其微的关键指标的变更触发(有关监视、日志记录、告警和微密钥指标的详细信息)。 这时你需要多个转移Failover 代码审查Code Review不完整、缺乏适当的测试覆盖率以及不规范开发流程(具体来说,缺乏标准化开发流程)会导致将错误代码部署到生产环境中,而通过跨微团队标准化开发流程是可以避免 这也是微中的常规和特定代码错误会导致以及不正确的错误和异常处理:当微失败时,未处理的异常是经常被忽视的罪魁祸首。最后,如果未做好突发增长做好准备,流量的增加可能会导致失败。 总结 一些最常见的微包括: • 不完整的代码审查 • 糟糕的架构和设计 • 缺乏适当的单元和集成测试 • 部署错误 • 缺乏适当的监控 • 错误和异常处理不当 • 数据库 • 可伸缩性限制 注意:我们不能依赖容编排平台Kubernetes来解决以上问题,很多时候是研发流程的问题,通过事前过程来预防微的失败,而不是通过事后控制。

    14710

    查看性能及快速定位

    查看性能及快速定位 -k1n,k1是第一列;列出1000行域名出现次数 web访问统计 watch 'netstat -an | egrep -w "80|443"|grep ESTABLISHED |wc -l' # 并发连接 ="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项,输出大于等于25分,小于等于26分的访问日志 定位 -w dst.pcap #过滤出端口为22, 且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库是通过

    47820

    如何识别连接的零星

    一个员工告诉你,他们不能使用某些网络。然而,他们不能给你任何具体的数据,例如他们无法访问哪个的确切时间,或者是否访问了相同的连接。 你如何解决这个问题呢? 通过使用Allegro网络万用表,你可以在几分钟内缩小的原因的范围,然后采取措施加以纠正。 首先通过独立于浏览的web界面搜索用户。 在某些时间发生的特别多的有问题的连接会立即显现出来。 准确定位有问题的连接 为了更仔细地检查潜在的问题连接,点击一个峰值将时间范围限制在这个时间间隔内。 切换到 “peers “标签,现在你可以看到在有关的时间间隔内联系的。再按 “无效连接 “进行排序,可以立即看到错误最多的(见截图)。 因此,尽管用户信息模糊,你仍然可以在几秒钟内确定受影响的,并使用隔离的网络流量详细检查

    13700

    PG复制和自动转移--2

    此备用配置为处于恢复模式,其唯一目的是在任何新 WAL 文件到达时回放它们。这第二台(也称为备用)然后成为主PostgreSQL的热备份。 一旦 WAL 记录到达 WAL 段文件,备用会不断地回放 WAL,以便备用和主是最新的。 (否则为只读)已被提升为新的主 如何在 PostgreSQL 中自动进行转移和复制 使用 EDB Postgres Failover Manager (EFM) 可以轻松设置自动转移 当发生时,它会自动切换到最新的备用,并重新配置所有其他备用以识别新的主。它还重新配置负载平衡(例如 pgPool)并防止“脑裂”(当两个节点都认为它们是主节点时)发生。 正确配置后,repmgr 可以检测主何时发生并执行自动转移: https://www.enterprisedb.com/postgres-tutorials/how-implement-repmgr-postgresql-automatic-failover

    8010

    golang 大量 CLOSE_WAIT 排查

    查看机监控,发现期间 socket fd 升高到了3w多,随着fd升高内存也在持续占用,但是远没有到系统瓶颈,DB、redis 还是出现窗口期间 qps 同步下掉的情况。 这个程序是两台机,出只有一台机,周五和周六分别是两台机交替出现 hang 住的情况。但是由于没有保留现场,无法仔细分析。 第一个红框是请求超时,上游主动关闭连接,超时时间大概是1s,正常返回了 fin ack。 为了验证这个请求为什么没有返回,我们提取 tcpdump 中的 HTTP 请求到后端日志查看发现到了,我们再从 Mysql 请求 sql 中查看发现没有这个请求没有进来,同时我们发现一个规律 发现代码中有一个方法有问题,这个方法之前一直没有业规则命中,前一天26号有一个业方开始走到这个方法。这个方法有一个隐藏bug,会导致 go 连接无法关闭。

    38030

    golang 大量 CLOSE_WAIT 排查

    查看机监控,发现期间 socket fd 升高到了3w多,随着fd升高内存也在持续占用,但是远没有到系统瓶颈,DB、redis 还是出现窗口期间 qps 同步下掉的情况。 这个程序是两台机,出只有一台机,周五和周六分别是两台机交替出现 hang 住的情况。但是由于没有保留现场,无法仔细分析。 第一个红框是请求超时,上游主动关闭连接,超时时间大概是1s,正常返回了 fin ack。 为了验证这个请求为什么没有返回,我们提取 tcpdump 中的 HTTP 请求到后端日志查看发现到了,我们再从 Mysql 请求 sql 中查看发现没有这个请求没有进来,同时我们发现一个规律 发现代码中有一个方法有问题,这个方法之前一直没有业规则命中,前一天26号有一个业方开始走到这个方法。这个方法有一个隐藏bug,会导致 go 连接无法关闭。

    17900

    恢复:一次底层超融合导致的异常处理

    墨墨导读:底层超融合导致数据库产生较多坏块,最终导致数据库宕机。 背景概述 某客户数据由于底层超融合导致数据库产生有大量的坏块,最终导致数据库宕机,通过数据抢救,恢复了全部的数据。 下面是详细的分析诊断过程,以及详细的解决方案描述: 现象 数据库宕机之后,现场工程师开始用rman备份恢复数据库,当数据库alert日志提示控制文件有大量坏块。 ? channel c2 type disk; allocate channel c3 type disk; allocate channel c4 type disk; allocate channel c5 START DDE Action: 'DB_STRUCTURE_INTEGRITY_CHECK' (Async) ----- Successfully dispatched 发现访问14号回滚段后出现 SQL> drop tablespace UNDOTBS2 including contents and datafiles; 然后对系统进行validate校验,发现两个对象有坏块,还好不是业数据

    26520

    在 Linux 命令行中使用 tcpdump 抓包的一些功能

    tcpdump 是一款灵活、功能强大的抓包工具,能有效地帮助排查网络问题。 以我作为管理员的经验,在网络连接中经常遇到十分难以排查的问题。对于这类情况, tcpdump 便能派上用场。 由于它是命令行工具,因此适用于在远程或者没有图形界面的设备中收集数据包以便于事后分析。它可以在后台启动,也可以用 cron 等定时工具创建定时任启用它。 在这个示例中,由于我是通过 ssh 连接到,所以 tcpdump 也捕获了所有这类数据包。 而通常在网络排查中,使用 IP 地址和端口号更便于分析问题;用 -n 选项显示 IP 地址, -nn 选项显示端口号: $ sudo tcpdump -i any -c5 -nn tcpdump: 举个例子,假设你正在定位一个与 web 连接的网络问题,就不必关系 SSH 数据报文,因此在抓包结果中过滤掉 SSH 报文可能更便于你分析问题。

    36531

    数据库主机重启诊断分析

    摘要:某客户RAC数据库主机轮流发生集群与主机重启,数据库连接不上问题,如下为诊断思路. 一、现象: 告警日志: Sun Feb 09 14:18:42 2020 Auto-tuning: Shutting down background process GTX2 Sun Feb 09 IO系统响应缓慢,导致越来越多的请求堆积,最终IO 耗尽,系统内存全部被占用,导致系统失去响应,发生。 三、解决 建议一: 可以调整 操作系统参数, vm.dirty_ratio=20 vm.dirty_background_ratio=3 目前操作系统配置文件/etc/sysctl.conf 中 没有这两个参数 建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启,解决。

    33900

    数据库主机重启诊断分析

    墨墨导读:某客户RAC数据库主机轮流发生集群与主机重启,数据库连接不上问题,如下为诊断思路。 一、现象 告警日志: Sun Feb 09 14:18:42 2020 Auto-tuning: Shutting down background process GTX2 Sun Feb 09 15 IO系统响应缓慢,导致越来越多的请求堆积,最终IO 耗尽,系统内存全部被占用,导致系统失去响应,发生。 三、解决 建议一: 可以调整 操作系统参数, vm.dirty_ratio=20 vm.dirty_background_ratio=3 目前操作系统配置文件/etc/sysctl.conf 中 没有这两个参数 建议二: 另外在检查中,发现该主机未配置大页,建议配置大页,可以极大提升数据库性能 后期调整后至今没有发现主机重启,解决。

    29210

    架构下处理解决方案

    优势之一是可缩小影响范围,局限在某个中。那一个出现该如何处理? 1 集群 可能整个集群都会,无法再对外提供。 采用多IDC部署的最大好处就是当有一个IDC发生时,可以把原来访问IDC的流量切换到正常的IDC,来保证业的正常访问。 3 单机 集群中的个别机出现,这种情况往往对全局没有太大影响,但会导致调用到上的请求都失败,影响整个系统的成功率。 发生概率最高的一种,尤其对于业量大的互联网应用来说,上万台机的规模也是很常见的。 你可以设置一个阈值,比如以某个接口的平均耗时为准,当监控单机上某个接口的平均耗时超过一定阈值时,就认为这台机有问题,这个时候就需要把有问题的机从线上集群中摘除掉,然后在重启后,重新加入到集群中。

    11510

    驱动的微架构设计

    目录 微架构的风险 优雅的降级 变更管理 健康检查和负载平衡 自愈(Self-healing) 转移缓存(Failover Caching) 重试逻辑(Retry Logic) 速率限制和负载开关 ,可以通过明确定义的边界来隔离。 优雅的降级 微架构的最大优点之一是你可以隔离并在组件单独时实现优雅的降级。例如,在中断期间,照片共享应用程序中的客户可能无法上传新图片,但仍可以浏览,编辑和共享其现有照片。 ? 微独立(理论上) 在大多数情况下,由于分布式系统中的应用程序相互依赖,因此很难实现这种优雅的降级,你需要应用几种转移的做法(其中一些将在本文后面介绍)才能应对暂时的和中断。 ? 断路通常在一定时间后关闭,为底层提供足够的空间来恢复。 请记住,并不是所有的错误都应该触发断路。例如,你可能希望跳过客户端问题,比如4xx响应代码的请求,但要包括5xx

    81370

    端解决的处理思路

    简单记录一下解决的思路,以便今后迅速定位问题。 问题的前因后果 尽可能搞清楚问题的前因后果,不要一下子就扎到前面,你需要先搞明白对这台有多少已知的情况,还有的具体情况。 注意:不同的之间调用,当进行某一个模块的联调时,这些相关的是否都发布了,我曾经因为少发了,导致不可用) 影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 硬件 1、 lspci dmidecode ethtool 有很多可能是硬件,具体看一下: RAID 卡 (是否带BBU备用电池?) CPU、空余的内存插槽? 网卡是否设置好? 结论 经过一系列的处理之后,应该对如下情况比较清楚了: 在上运行的都是些啥? 这个看起来是和 IO/硬件/网络 或者 系统配置 (有问题的代码、系统内核调优, …)相关?

    5820

    相关产品

    • 云服务器

      云服务器

      云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券