虚拟机故障检测_硬件故障检测_主板故障检测 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

云计算——常见集群策略

集群是一种计算机系统，通过一组计算机或服务器的软硬件连接起来高度紧密地协作完成计算工作。在客户端看来为其提供服务的只有一台设备，实际上它是一群设备的集合，只不过这些设备提供的服务一样。

01

DevOps软件架构师行动指南

DevOps：开发和运维充分沟通 DevOps是什么？ DevOps是一套实践方法，在保证高质量的前提下缩短系统变更从提交到部署至生产环境的时间。 1、运维人员是首要干系人。需求开发阶段就引入运维人员。 2、缩短开发人员发现错误到修复的时间。 3、持续部署 4、基础设施及代码

02

您找到你想要的搜索结果了吗？

是的

没有找到

VMware虚拟机丢失恢复成功案例

客户故障为VMWARE原本挂载的VMFS分区丢失，导致存储在里面的虚拟机丢失。发现虚拟异常后，关闭虚拟机，虚拟机无法再次启动，后重启物理服务器，提示载入硬盘阵列信息，依旧无法看到文件，在远程管理中查看到RAID6第6块盘脱机。

01

什么是K8S

k8s全称kubernetes，这个名字大家应该都不陌生，k8s是为容器服务而生的一个可移植容器的编排管理工具，越来越多的公司正在拥抱k8s，并且当前k8s已经主导了云业务流程，推动了微服务架构等热门技术的普及和落地，正在如火如荼的发展。那么称霸容器领域的k8s究竟是有什么魔力呢？

04

Fault-Tolerant Virtual Machines-VMware vSphere容错虚拟机设计 (1)

我们实现了一个商业企业级的系统，以提供容错的虚拟机，其基础是通过另一台服务器上的备份虚拟机来复制主虚拟机的执行。我们在VMware vSphere 4.0中设计了一个完整的系统，该系统易于使用，在商品服务器上运行，并且通常使实际应用的性能降低不到10%。此外，在几个实际应用中，保持主虚拟机和副虚拟机同步执行所需的数据带宽低于20 Mbit/s，这使得在更远的距离上实现容错成为可能。一个易于使用的、能在故障后自动恢复冗余的商业系统，除了复制的虚拟机执行外，还需要许多额外的组件。我们已经设计并实现了这些额外的组件，并解决了在支持运行企业应用程序的虚拟机中遇到的许多实际问题。在本文中，我们描述了我们的基本设计，讨论了备选的设计选择和一些实施细节，并提供了微型测试和实际应用的性能结果。

01

nfv与云计算_云计算必学知识

侧重于用户提供基础资源，包括计算、存储、网络资源等。实际应用中通常以虚拟机形式提供。现在公司使用的openstack就是属于lass基础设施层面 iaas的实例：

03

Fault-Tolerant Virtual Machines-VMware容错虚拟机设计 (3)

在本节中，我们对VMware FT在一些应用工作负载和网络基准方面的性能做了基本评估。对于这些结果，我们在相同的服务器上运行主虚拟机和备份虚拟机，每台服务器有8个英特尔至强2.8Ghz CPU和8G字节的内存。这些服务器通过一个10Gbit/s的交叉网络连接，尽管在所有情况下都会看到，使用的网络带宽远低于1Gbit/s。两台服务器通过一个标准的4Gbit/s光纤通道网络连接的EMC Clariion访问它们的共享虚拟磁盘。用于驱动一些工作负载的客户端通过1 Gbit/s网络与服务器相连。

02

k8s学习五-k8s介绍(为什么要学k8s)

互联网早期,会直接将应用程序部署在物理机上,例如直接将java程序部署到物理机中

03

OSPF技术连载4：OSPF和BFD联动，含思科、华为、Junifer三厂商配置

在现代网络架构中，可靠性和快速故障检测与恢复是至关重要的。在此背景下，将OSPF（Open Shortest Path First）与BFD（Bidirectional Forwarding Detection）联动起来，成为提高网络性能和可靠性的有效策略。本文将详细介绍OSPF和BFD的基本原理，并探讨它们联动的好处和实施步骤。

01

OSPF技术连载4：OSPF和BFD联动，含思科、华为、Junifer三厂商配置

在现代网络架构中，可靠性和快速故障检测与恢复是至关重要的。在此背景下，将OSPF（Open Shortest Path First）与BFD（Bidirectional Forwarding Detection）联动起来，成为提高网络性能和可靠性的有效策略。本文将详细介绍OSPF和BFD的基本原理，并探讨它们联动的好处和实施步骤。

03

Fault-Tolerant Virtual Machines-VMware容错虚拟机设计 (2)

第2节描述了我们对FT的基本设计和协议。然而，为了创建一个可用的、稳健的和自动的系统，还有许多其他组件必须设计和实施。

01

（一）Kubernetes介绍

按官网的说法就是Kubernetes是用于自动部署，扩展和管理容器化应用程序的开源系统。它将组成应用程序的容器组合成逻辑单元，以便于管理和服务发现。Kubernetes 源自Google 15 年生产环境的运维经验，同时凝聚了社区的最佳创意和实践。

02

搭建consul 集群

上图是官网提供的一个事例系统图，图中的Server是consul服务端高可用集群，Client是consul客户端。consul客户端不保存数据，客户端将接收到的请求转发给响应的Server端。Server之间通过局域网或广域网通信实现数据一致性。每个Server或Client都是一个consul agent。Consul集群间使用了GOSSIP协议通信和raft一致性算法。上面这张图涉及到了很多术语： Agent——agent是一直运行在Consul集群中每个成员上的守护进程。通过运行 consul

07

consul分布式集群搭建

上图是官网提供的一个事例系统图，图中的Server是consul服务端高可用集群，Client是consul客户端。consul客户端不保存数据，客户端将接收到的请求转发给响应的Server端。Server之间通过局域网或广域网通信实现数据一致性。每个Server或Client都是一个consul agent。Consul集群间使用了GOSSIP协议通信和raft一致性算法。上面这张图涉及到了很多术语：

01

为什么基于网络的分布式系统不靠谱？

首先需要明确，本书讨论系统范畴是 share-nothing 架构：所有机器不共享资源（如内存、磁盘），通信的唯一途径就是网络。share-nothing 不是唯一的系统构建方式，但相比来说，它是最经济的，不需要特殊的硬件，并且可以通过异地冗余做高可用。但同时，构建这种风格的系统复杂度也最高。

02

Jtti：云数据中心包含哪些

云数据中心是专门设计和构建的设施，旨在支持云计算和云服务。它们提供了计算、存储、网络和安全等基础设施资源，以便用户和组织能够部署、管理和运行应用程序、服务和数据存储等工作负载。云数据中心的特点通常包括以下方面：

02

Erlang 和 Elixir 介绍

Erlang（Ericsson Language）是一种通用的面向并发的编程语言，它由瑞典电信设备制造商爱立信所辖的CS-Lab开发，目的是创造一种可以应对大规模并发活动的编程语言和运行环境。Erlang问世于1987年，经过十年的发展，于1998年发布开源版本。Erlang是运行于BEAM（Bogdan/Björn’s Erlang Abstract Machine）虚拟机的解释性语言，但是现在也包含有乌普萨拉大学高性能Erlang计划（HiPE）开发的本地代码编译器，自R11B-4版本开始，Erl

03

腾讯资深专家解读超大规模云网络中如何实现网络的可编程性、弹性和可靠性

笔者认为云网络中最核心的两点是：高性能与大规模。关于高性能网络的研究目前已经很多，在大规模网络方面早期 Google 云网络 Andromeda 提出了 Hoverboard 的解决方案。

01

印度首颗自研CPU，可商用了？

近日，印度理工学院发布了首款自主研发CPU——“Shakti”（在印度神话中代表女性力量）的SDK软件开发包，并承诺会很快放出开发版。

01

k8s实践(二)：基本概念、kubectl命令和资料分享

Kubernetes是谷歌开源的容器集群管理系统，是Google多年大规模容器管理技术Borg的开源版本，主要功能包括：

05

什么是双机热备技术？华为和思科如何实现双机热备？

在当今高度依赖网络的时代，网络设备的高可用性和可靠性变得尤为重要。网络设备的故障可能导致服务中断、数据丢失以及生产力下降等问题。为了应对这些挑战，一种常见的解决方案是使用双机热备（High Availability, HA）技术。本文将详细介绍网络设备双机热备的原理、应用场景、优势以及在华为设备和思科设备的解决方案。

02

什么是双机热备技术？华为和思科如何实现双机热备？

双机热备是一种通过在网络设备之间建立冗余的、实时同步的备份系统，以实现在主设备故障时无缝切换到备用设备的高可用性技术。

04

要在数据中心实现快速收敛？你需要一个快速IP Fabric

先说一句看起来很“傻”，但在我看来并非琐碎的话：如果一切都按预期进行……那么一切就都会顺利进行。

00

漫谈分布式共识问题

来源 | 多颗糖责编 | 李雪敬封图 | CSDN付费下载自视觉中国混乱的“一致性”问题 Consensus != Consistency 受翻译影响，网上很多讨论 paxos 或 raft 的博客使用“分布式一致性协议”或者“分布式一致性算法”这样的字眼，虽然在汉语中“达成共识”和“达成一致”是一个意思，但是必须要说明在这里讨论的是 consensus 问题，使用“共识”来表达更清晰一些。而 CAP 定理中的 C 和数据库 ACID 的 C 才是真正的“一致性”—— consistency

02

Kubernetes的基本架构

Kubernetes，希腊语，意舵手。有时简写为“K8s”，其中“8”代表“K”和“s”之间的 8 个字母，是一个开源系统，支持在任何地方部署、扩缩和管理容器化应用。

02

DAOS引擎心跳健康检测-cart_swim(可扩展的弱一致性感染式过程组成员协议)

swim: Scalable Weakly-consistent Infection-style process group Membership Protocol, 可扩展的弱一致性感染式过程组成员协议

04

k8s kubedns_docker+k8s

容器化部署方式产生的问题及解决方案 • 容器化部署方式带来了很多的便利，但是也会带来一些问题，比如： • 一旦容器故障停机了，怎么让另外一个容器立刻启动去替补停机的容器。 • 当并发访问量变大的时候，怎么做到横向扩展容器数量。 • …… • 这些容器管理的问题统称为容器编排问题，为了解决这些容器编排问题，就产生了一些容器编排的软件： • Swarm：Docker自己的容器编排工具。 • Mesos：Apache的一个资源统一管控的工具，需要和Marathon结合。 • Kubernetes：Google开源的容器编排工具。

02

云计算的未来：云原生架构和自动化运维的崭露头角

随着云计算的快速发展，云原生架构和自动化运维成为了当今IT领域的热门话题。这两者共同构成了云计算的未来，为企业提供了更高效、更灵活和更具竞争力的解决方案。本文将深入探讨云原生架构和自动化运维的概念、原理以及未来趋势，以帮助读者更好地理解云计算的发展方向。

01

kubernetes概述

kubernetes，简称 K8s，是用 8 代替 8 个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes 的目标是让部署容器化的应用简单并且高效（powerful）,Kubernetes 提供了应用部署，规划，更新，维护的一种机制。

02

【说站】mysql组复制有哪些用处

如果服务器A在规定的时间内没有从服务器B收到消息，就会超时，引起怀疑。那么，如果小组同意怀疑是真的，那么小组决定给定的服务器就会停机。也就是说，小组中的其他成员将采取协调决策，以排除给定成员。

02

k8s系列教程-初识k8s

搭建k8s开发环境有三种，一种是通过docker desktop + Minikube 来直接在你的电脑上搭建，这种搭建方式存在的问题比较多，很多功能不支持，不建议使用。另外一种方式是通过Docker Desktop安装k8s，这种k8s是单机版的，master 和node 是同一个节点也就是本机，这种方式安装的k8s基本上能满足我们的学习需求，初期学习阶段可以使用这种安装方式。还有就是通过前文介绍 vagrant 制作box 然后创建集群安装，这种安装方式是最完整也是最麻烦的。现在先介绍第二种安装方式，第二种方式是把k8s 镜像拉取下来并运行容器，但因为国内网络的问题，镜像依赖拉不下来，我们可以上github 拉阿里云的k8s-for-docker-desktop 到本地安装。

01

听说Memcache你很豪横？-------------深入剖析Memcache+keepalive高可用群集

memcached群集作用主要解决服务器单点故障。不做群集部署，服务器之间不会复制同步数据，一旦宕机数据就会丢失，无法有效的为后台web服务器等减轻并发连接压力。所以，我们采用群集服务去解决这个问题，使用多台memcached做群集部署，即时有一两台服务器宕机，也不会影响用户正常体验，同时也减少后台服务的并发连接压力。

02

关于 Virtual SAN/VSAN 的常见问题解答

答：SSD 用于读取缓存 (70%) 和写入缓冲 (30%)。每次写入都会先转到 SSD，稍后再取消暂存到 HDD。

02

MySQL高可用集群搭建实战

随着互联网的发展,网站业务量越来越大,对系统可用性和性能提出了更高的要求。一次系统故障可能会造成巨大的经济损失和负面影响。因此,数据库高可用性成为一个非常重要的话题。

04

如何恢复故障KVM虚拟机qcow2磁盘镜像文件LVM分区中的数据

下面以Fedora32 Cockpit方式安装的虚拟机为演示环境，介绍如何恢复故障KVM虚拟机qcow2磁盘镜像文件LVM分区中的数据

06

分析Oracle在云上实现高可用的几种实现方式

针对Oracle迁移上云项目，云提供给用户的物理机上加载有三张网卡供用户使用，一张用于跑业务，另外两张可以用于心跳线网络。另外，存储网络是单独的网口，在建设时已由服务商做好配置，不含在这三张网卡内。基于公有云技术，为了组建资源池内部管理控制专网，因此现市面上公有云提供商的IPMI端口，均不能提供出来用于对外访问。

01

服务器硬盘离线数据恢复成功案例

服务器内有两块硬盘掉线，现在服务器内的lun丢失了，数据恢复工程师开始对故障服务器进行检测发现掉线的硬盘并没有存在物理故障、也没有坏道等其他故障。于是开始对客户的故障服务器进行镜像备份。

01

恢复服务器安装信息被破坏了,服务器存储瘫痪数据恢复成功案例-服务器数据恢复…

机房突然断电导致整个存储瘫痪，加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。

03

对k8s的一些总结

比如大模型很热，这么马上大谈特谈大模型，似乎大模型能解决一切问题。然后网上到处去抄，把别人的模型，拿来用一下，关键抄都不会抄。问题一堆，然后骂手下无能，逼这个赶那个的。

01

VMware企业虚拟化综合实验2

vmtools：VM增强功能，可以在主机与客户机之间传递消息，进行更进一步虚拟机状态检测

01

RAID6存储断电数据恢复案例

本次分享的案例是由于机房突然断电导致整个存储瘫痪，加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。整个存储是由12块盘组成的RAID-6磁盘阵列，被分成一个卷，分配给几台Vmware的ESXI主机做共享存储。整个卷中存放了大量的Windows虚拟机，虚拟机基本都是模板创建的，系统盘都为统一大小，数据盘大小不确定，并且数据盘都是精简模式。

02

VMware Infrastructur

VM Infrastructure 3 (VI3)平台是目前最为流行的虚拟化平台。VI3的庞大阵容使得他成为目前市场上最健壮，最稳定，最可靠的服务器化产品。动态资源控制，高可用性，分布式资源管理，自带备份工具，使得IT管理人员拥有所有他们需要的工具来管理整套企业环境所拥有的几十到几千台服务器。

01

docker和k8s预研

软件开发最大的麻烦事之一，就是环境配置。用户计算机的环境都不相同，你怎么知道自家的软件，能在那些机器跑起来？

01

docker、k8s 面试总结

Docker 是基于容器技术实现的，容器技术最开始是基于 Linux Container（简称 LXC）技术实现的，通过内核提供的 Namespace 和 Cgroup 机制，实现了对应用程序的隔离以及物理资源的分配。

00

Amazon 针对小对象的分布式键值存储 ——Dynamo

Dynamo 是一个高可用的 KV 存储系统。为了保证高可用和高性能，Dynamo 采用了最终一致性模型，它对开发人员提供一种新型 API，使用了版本机制，并通过用户侧辅助解决冲突。Dynamo 目标是提供不间断的服务，同时保证性能和可扩展性。由于亚马逊大量采用了去中心化、高度解耦微服务架构，因此对微服务状态的存储系统的可用性要求尤其高。

02

Kubernetes角度解读：CoreOS与Docker分手事件

Kubernetes这个名字起源于古希腊，是舵手的意思，所以它的Logo既像一张渔网，又像一个罗盘。谷歌采用这个名字的一层深意就是：既然Docker把自己定位为驮着集装箱在大海上自在遨游的鲸鱼，那么谷歌就要以Kubernetes掌舵大航海时代的话语权，“捕获”和“指引”这条鲸鱼按照“主人”设定的路线巡游，确保谷歌倾力打造的新一代容器世界的宏伟蓝图顺利实现。

01

linux文件系统误操作恢复数据过程

Linux文件系统中的文件是数据的集合，文件系统不仅包含着文件中的数据而且还有文件系统的结构，所有Linux用户和程序看到的文件、目录、软连接及文件保护信息等都存储在其中。Linux是一个性能稳定、功能强大、效率高的操作系统。它在功能特性方面与Unix系统相似，同时又具有多任务、多用户、多平台等若干特性。

04

反作弊如何检测系统仿真（1）

作为我们的第一篇文章介绍了检测VMM是否存在的各种方法，无论是商业的还是定制的，我们都希望做到透彻并将其与我们对流行的反作弊厂商的研究联系起来。首先，对于游戏黑客领域以外的人员来说，了解管理程序在作弊中的用途以及在使用作弊程序的作弊提供商中保持反欺诈的重要性非常重要。这篇文章将涵盖可用于Intel / AMD的几种标准检测方法；提供说明，缓解措施和一般效果评估。然后，我们将探讨一种高效的旁通道攻击-平台无关的。然后，我们将研究一些特定于OS的方法，这些方法会滥用WoW64中描述符表信息的某些误处理以及阻止自定义的syscall挂钩方法的方法，如Reverse Engineering博客上记录的。

DELL服务器数据恢复成功案例

DELL EqualLogic PS6100采用虚拟ISCSI SAN阵列，为远程或分支办公室、部门和中小企业存储部署带来企业级功能、智能化、自动化和可靠性。以简化的管理、快速的部署及合理的价格满足了分支办公室和中小企业的存储需求，同时提供全套企业级数据保护和管理功能、可靠的性能、可扩展性和容错功能，是中型企业级存储的起点产品，但某些物理故障或其他操作都可能会对卷或存储造成破坏，因此对系列存储的数据恢复技术才有了用武之地。而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作。北亚数据恢复中心宋工最近处理过一起DELL EqualLogic PS 6100因磁盘故障导致存储不可用的案例：

03

分布式高可用，故障如何恢复，今天教你改正错误

在前面两篇文章中(分布式高可靠之流量控制篇，你也能像大禹一样去治水)(分布式高可靠之负载均衡，今天看了你肯定会)，我带你一起学习了分布式系统高可靠的关键技术，包括分布式负载均衡和流量控制。除了高可靠，在实际生产中，分布式系统的高可用问题也极其重要。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭