内存故障的表现_主板故障表现_内存故障 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

常用电脑资料速查

【云顾问-混沌】Redis故障演练-主从切换

随着企业对数据处理和存储需求的不断增长，Redis作为一款高性能的内存数据结构存储系统，已成为业界的首选。然而，在Redis中的使用中，会面对一些潜在的故障风险，其中主节点故障，发生主从切换最为常见。

服务端解决故障的处理思路

1、出错一般来说是两种情况：（1）代码逻辑出错了（2）传入参数出错了 2、在上述情况都正确的情况下，那么业务逻辑可能是正常执行了。这时错误可能就是其他原因：（1）出错的代码在别的地方（2）rpc调用超时（3）......

浅谈大模型训练排障平台的建设

OpenAI的Chat-GPT为我们揭示了通用人工智能的潜力，而GPT4-Turbo的发布进一步拓宽了我们对通用人工智能的想象边界，国内各种大型模型如同雨后春笋般涌现。同时，大模型训练所带来的各种工程化问题也接踵而至。大模型训练通常涉及大量的参数、巨大的计算需求和复杂的网络结构，这使得整个训练过程变得极其复杂。在这种情况下，训练过程中可能出现的故障可以来自硬件、软件、网络、应用等多个方面，这使得故障定位和排除工作变得异常困难。训练过程中的任何故障都可能导致训练中断，从而损失从上一个检查点到中断时的所有计算。重新启动训练任务也需要一定的时间，而昂贵的计算资源使得每一秒都显得尤为重要，毕竟“时间就是金钱”。本文将专注于大模型训练的故障的定位，尝试提供一些解决思路和方法，希望能为读者带来一些帮助和启示。

036

ChatGPT教你LoadRunner压测工具

请访问智造喵免费GPT网址：https://chat.plexpt.com/i/511440

微信PaxosStore内存云揭秘：十亿Paxos/分钟的挑战

PaxosStore是微信设计的一套分布式存储系统，并已对核心业务存储做了架构改造。内存云是微信PaxosStore存储体系的组成部分，本文将分享内存云的Paxos改造过程。

故障排除的思路及见解

之所以把问题归结为不可能的玄学问题或者偶现事件，是因为问题超出自己的认知范围，应该努力提升自己把这类问题变为可解释和可解决的方案。

陌陌:使用Spark SQL和Alluxio加速Ad Hoc查询

星球里经常有人问，如何保存sparkstreaming状态，回答的时候也会说道Alluxio。可能很多公司并没有去做Alluxio相关的使用。希望通过本文，大家对Alluxio的使用场景更详细了解，后面结合spark streaming浪尖会制作一个demo。

云硬盘状态错误怎么办如何格式化云硬盘？

云硬盘是一种先进的云产品，可以挂载到云服务器上面给云服务器提供一系列的内存和存储操作。如果云服务器挂载的是云硬盘，那么云硬盘的正常使用和运行是非常关键的。因为一旦硬盘出现故障，那么云服务器的许多联网操作都将受到影响，甚至会引起系统瘫痪和故障，因此出现硬盘问题要及时处理，如果云硬盘状态错误怎么办呢？

缓存技术PK：选择Memcached还是Redis？

这两套声名显赫的缓存引擎拥有着诸多相似之处，但它们同样也具备大量显著差异。作为二者当中更年轻也更加灵活的方案，Redis被大部分技术人员视为首选目标——但请别掉以轻心，不容忽视的重要例外情况也是客观存在的。 1.1 Memcached介绍 Memcached 是一个高性能的分布式内存对象缓存系统，用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数，从而提供动态、数据库驱动网站的速度，现在已被LiveJournal、hatena、Facebook、Vox、Li

运维定位服务故障时，前5分钟都在忙啥？

遇到服务器故障，问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手，这些也是绝大多数运维工程师在定位故障时前几分钟的主要排查点：

云上弹性RDMA能力来了！腾讯云助力算力加速

人工智能作为推动数字经济发展的算力基础和重要支撑，已经广泛运用于诸如自然语言处理、图像识别、自动驾驶、医疗诊断、金融风控等各大应用领域。其中在深度学习分支，模型训练是一个非常耗时和计算密集的过程，需要大量的计算资源和时间。

最强Redis面试八股文系列文章

作为技术人，去参与技术面试，肚子里面还是要有货的，当然早些年程序员可以靠一本八股文走天下，但是现如今这个行业已经内卷到了疯狂的阶段，那么你的那些所谓的技术必杀技的八股文其实已经不奏效了，毕竟技术面试官的门槛也高了，那么技术候选人自己也要升级啦，不然你会面试的一塌糊涂，最终会开始怀疑自己是否适合继续做一名程序员。

AIOps异常检测（二）：基于告警事件的实时故障预测

AIOps领域关于指标、日志和trace数据的异常检测与定位的研究工作很多，这些工作中的异常更多是时序指标上的表现异常，与真实的故障相距甚远，真实的故障是极其稀疏的，与运维工作人员每天接受到的异常检测算法识别出来的告警量不在一个数量级。本文主要介绍一种实时故障预测的文章《Real-Time Incident Prediction for Online Service Systems》，使用告警数据来预测未来一段时间是否会发生真实故障。

Flink成为字节跳动流处理唯一标准

场景描述：本文将为大家展示字节跳动公司将 Jstorm 任务迁移到 Apache Flink 上的整个过程以及后续计划。你可以借此了解到字节跳动公司引入 Apache Flink 的背景，Apache Flink 集群的构建过程，如何兼容以前的 Jstorm 作业以及基于 Apache Flink 构建一个流式任务管理平台，本文将一一为你揭开这些神秘的面纱。

频发：记ADG备库日志应用延迟的一次故障处理-云和恩墨技术通讯精选

为了及时共享行业案例，通告共性问题，达成知识共享和提前预防，我们整理和编辑了《云和恩墨技术通讯》（7月刊），通过对过去一段时间的知识回顾和故障归纳，以期提供有价值的信息供大家参考。同时，我们也希望能够将热点事件、新的产品特性及其他有价值的信息聚集起来，为您提供具有前瞻性的支持信息，保持对于当前最新的数据库新闻和事件的了解，其中包括重要数据库产品发布、警报、更新、新版本、补丁等。

Java进程故障排查思路及步骤

响应时间长、超时，甚至不响应，这是最直观的表现；而CPU使用率极高或极低，频繁出现Full GC，这些需要借助系统日志或者监控辅助发现。

AIOps质量#Incident#检测：基于告警事件的实时故障预测

redis的问题_redis高级数据类型

11.Redis的缓存优化方向有哪些？你们怎么理解的？对热点键的注意事项设计什么？

Chaos Mesh + SkyWalking，打造可观测的混沌工程

Chaos Mesh 是一个开源的云原生混沌工程平台，借助 Chaos Mesh，用户可以很方便地对服务注入异常故障，并配合 Chaos Dashboard 实现对整个混沌实验运行状况的监测。然而，对混沌实验运行情况的监控并不能告诉我们应用服务性能的变化。从系统可观测性的角度来说，我们可能无法单纯通过混沌实验的动态了解故障的全貌，这也阻碍了我们对系统和故障的进一步了解，调试。

硬件笔记之win11关机自动重启

本文主要记录win11遭遇关机自动重启的排查过程，为解决问题提供部分思路，仅供参考。

再访YashanDB，解密崖山新品发布会背后的技术突围

本月，YashanDB 举办了 2023 新品发布会。作为国产数据库行业的一颗新星，崖山数据库 YashanDB 从“出道”之初便凭借着“自研技术”成为了信创领域的一匹黑马。此次发布会则再一次引发了行业的讨论。

通过移除 Nginx，Raygun 公司怎样将 TPS 提高了 44%？

在 Raygun，追求极致性能已然成为公司文化的一部分。在此前的博客文章中，我们介绍了如何通过将Raygun 的 API 迁移到.NET Core 3.1，性能提高 12％的方法。

Prometheus 参考实现的时序数据库 Gorilla 介绍

在大型微服务架构中，服务监控和实时分析需要大量的时序数据。存储这些时序数据最高效的方案就是使用时序数据库 (TSDB)。设计时序数据库的重要挑战之一便是在效率、扩展性和可靠性中找到平衡。这篇论文介绍的是 Facebook 内部孵化的内存时序数据库，Gorilla。Facebook 团队发现：

【译文】MapReduce：大型集群上的简化数据处理

MapReduce是一个编程模型，以及处理和生成大型数据集的一个相关实现，它适合各种各样的现实任务。用户指定计算的map和reduce函数。底层运行系统自动地将大规模集群机器间的计算并行化，处理机器故障，以及调度机器间通信以充分利用网络和磁盘。程序员会发现这个系统很好使用：在过去的去年中，超过一万个不同的MapReduce程序已经在Google内部实现，平均每天有十万个MapReuce作业在Google集群上被执行，每天总共处理20PB以上的数据。

Flink如何实现新的流处理应用第二部分:版本化状态

这是我们关于 Flink 如何实现新的流处理应用系列中的第二篇博文。第一部分介绍了事件时间和乱序处理。

英特尔实验室引入全局剪辑器，提高基于 Transformer 目标检测模型对软错误的鲁棒性！

深度神经网络（DNNs）的采用对包括自动驾驶车辆[1]，航空，医疗保健[2]和太空探索[3]在内的各个领域产生了重大影响，在这些领域中，高安全性和可靠性至关重要。这推动了专注于安全人工智能的计算机视觉研究社区的蓬勃发展，研究领域包括分布外检测[4]，对抗性鲁棒性和模型互操作性[5]。基于DNN的计算机视觉模型处理图像以分类目标并预测它们的边界框。

在服务器上排除问题的头五分钟（干货）

遇到服务器故障，问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手：一、尽可能搞清楚问题的前因后果不要一下子就扎到服务器前面，你需要先搞明白对这台服务器有多少已知的情况，还有故障的具体情况。不然你很可能就是在无的放矢。必须搞清楚的问题有：故障的表现是什么？无响应？报错？故障是什么时候发现的？故障是否可重现？有没有出现的规律（比如每小时出现一次）最后一次对整个平台进行更新的内容是什么（代码、服务器等）？故障影响的特定用户群是什么样的(已登录的，退出的，某个地域的…)

7 段小代码，玩转Java程序常见的崩溃场景！

Java程序是基于GC的，在启动初始，就申请了足量的内存池，再加上JIT等编译器的实时优化，速度并不比直接用C++语言写的慢。Java语言同时由于反射和可观测等特点，再加上JFR这种神器，在发生问题的时候比二进制文件更容易找到它的根源。

你所需要掌握的问题排查知识

由于业务应用 bug(本身或引入第三方库)、环境原因、硬件问题等原因，线上服务出现故障 / 问题几乎不可避免。例如，常见的现象包括请求超时、用户明显感受到系统发生卡顿等等。

『数据密集型应用系统设计』读书笔记(一)

这本书一直在我的待读列表，但是一直没有机会拜读，直到最近 2021 年已经快要过去，感觉需要在年末提升一下自己。边读边做一下笔记，留待后用。

深入了解 Linux 常用性能统计命令

在管理和维护 Linux 系统时，了解系统的性能状况对于保证系统的稳定性和高效性至关重要。本文将介绍一些常用的 Linux 性能统计命令，帮助您监控系统的资源使用情况和性能表现。

革命性软件定义存储 HBlock，极致易用背后的技术解析

近日，天翼云联合 InfoQ 举办了以“存储难题新解法，揭秘极致易用的 HBlock”为主题的线上技术分享会”。天翼云国际业务事业部存储产品线总监潘亚莲与研发专家武志民参与了第一期分享，以“革命性软件定义存储 HBlock，极致易用背后的技术解析”为主题，讲解了 HBlock 在产品理念、应用场景、技术架构设计等方面的内容，本文将对其观点进行详细阐述。

10 个 DevOps 中 Kubernetes 的最佳实践——没有 ChatGPT

译自 10 Kubernetes Best Practices in DevOps — without ChatGPT 。

微服务架构是什么？有哪些优点和不足？

微服务架构是一种架构风格和架构思想，它倡导我们在传统软件应用架构的基础上，将系统业务按照功能拆分为更加细粒度的服务，所拆分的每一个服务都是一个独立的应用，这些应用对外提供公共的API，可以独立承担对外服务的职责，通过此种思想方式所开发的软件服务实体就是“微服务”，而围绕着微服务思想构建的一系列体系结构(包括开发、测试、部署等)，我们可以将它称之为“微服务架构”。

OWASP Top 10 2021 榜单出炉！

近日，OWASP从贡献者提供的数据中选择了8个类别，从高水平的行业调查中选择了2个类别，完成了最新的OWASP Top 10 2021 榜单。OWASP表示，

在服务器上排除问题的头 5 分钟

我们团队为上一家公司承担运维、优化和扩展工作的时候，我们碰到了各种不同规模的性能很差的系统和基础设备（大型系统居多，比如CNN或者世界银行的系统）。

在服务器上排除问题的头 5 分钟

我们团队为上一家公司承担运维、优化和扩展工作的时候，我们碰到了各种不同规模的性能很差的系统和基础设备（大型系统居多，比如CNN或者世界银行的系统）。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档，基本上这过程都会惨痛到让我们留下深刻的记忆。

优化MongoDB的4个技巧

你有没有MongoDB数据库的性能问题？常见的情况是运行查询时突然出现性能问题。显而易见的第一个解决方案是，“让我们创建一个索引！” 虽然这在某些情况下有效，但在尝试优化MongoDB时还需要考虑其他选项。

加速Flink布局，Pinterest的自助式故障诊断工具实践

为简化和加速故障排查，Pinterest 流处理平台团队基于 Flink 构建并推出了称为 Dr. Squirrel 的诊断工具，揭示并聚合任务状态，洞悉根本致因，提供解决问题的可操作过程。自发布以来，该工具显著提升了开发人员和平台团队的工作效率。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐