开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从失败的Ceph群集恢复-非活动PG (Down)

Ceph是一个开源的分布式存储系统，它提供了高可靠性、高性能和可扩展性的存储解决方案。Ceph集群由多个存储节点组成，每个节点都可以存储和访问数据。PG（Placement Group）是Ceph中数据的分片单位，用于实现数据的分布和冗余。

当Ceph集群中的PG处于非活动状态（Down）时，意味着该PG所在的存储节点无法正常工作或与集群失去连接。这可能是由于硬件故障、网络问题或其他原因导致的。

要从失败的Ceph群集恢复非活动PG，可以采取以下步骤：

检查网络连接：首先，确保存储节点与Ceph集群的网络连接正常。可以通过ping命令或其他网络工具来测试节点之间的连通性。
检查存储节点状态：使用Ceph命令行工具（如ceph status）检查存储节点的状态。如果节点处于非活动状态，可能需要修复或替换故障硬件。
检查Ceph集群状态：使用Ceph命令行工具检查整个集群的状态。如果集群中有其他节点也处于非活动状态，可能需要进行全面的故障排除和修复。
重新启动服务：尝试重新启动Ceph集群中相关的服务，如Ceph OSD（Object Storage Daemon）和Ceph Monitor。这可以通过执行适当的系统命令或使用Ceph管理工具来完成。
数据恢复：一旦存储节点和集群恢复正常，Ceph将自动开始数据的恢复过程。这包括重新平衡PG、恢复丢失的数据和修复冗余。

对于Ceph集群的非活动PG恢复，腾讯云提供了一系列相关产品和服务：

腾讯云COS（对象存储）：腾讯云COS是一种高可靠、高扩展的对象存储服务，适用于存储和访问任意类型的数据。它可以作为Ceph的替代方案，提供类似的功能和性能。
腾讯云CVM（云服务器）：腾讯云CVM提供了可靠的虚拟服务器实例，可以用作Ceph集群的存储节点。它具有高性能、高可用性和可扩展性。
腾讯云VPC（虚拟私有云）：腾讯云VPC提供了安全、隔离的网络环境，可以用于构建Ceph集群的网络基础设施。
腾讯云云监控：腾讯云云监控可以帮助监测和管理Ceph集群的状态和性能。它提供了实时监控、告警和自动化运维等功能。

更多关于腾讯云产品的详细信息和介绍，请访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ceph分布式存储-常见 PG 故障处理

3.2 卡住的 PGs 有失败发生后，PG 会进入“degraded”（降级）或“peering”（连接建立中）状态，这种情况时有发生。通常这些状态意味着正常的失败恢复正在进行。...然而，如果一个 PG 长时间处于这些状态中的某个，就意味着有更大的问题。因此 monitor 在 PG 卡（ stuck ）在非最优状态时会告警。...3.3 PG 挂了 —— 互联失败在某些情况下， ceph-osd 互联进程会遇到问题，阻值 PG 达到活跃、可用的状态。...例如，集群里的一个 ceph-osd 停止且被剔出集群，然后集群完全恢复了；后来一系列的失败导致了未找到的对象，它也不会觉得早已死亡的 ceph-osd 上仍可能包含这些对象。...如果所有可能的位置都查询过了但仍有对象丢失，那就得放弃丢失的对象了。这仍可能是罕见的失败组合导致的，集群在写操作恢复后，未能得知写入是否已执行。

3.1K3 0

分布式存储Ceph之PG状态详解

PG活动集任何的一个改变，数据发生从老活动集到新活动集的迁移。...在迁移期间还是用老的活动集中的主OSD处理客户端请求，一旦迁移完成新活动集中的主OSD开始处理 Repair PG在执行Scrub过程中，如果发现存在不一致的对象，并且能够修复，则自动进行修复状态 Scrubbing...PG不能处理读写请求 Unclean 非干净态。PG不能从上一个失败中恢复 Stale 未刷新态。...，想要修复不一致的数据文件，只需要执行ceph pg repair修复指令，ceph就会从其他的副本中将丢失的文件拷贝过来就行修复数据。...OSD 向 osd.34 进行数据的恢复，使其数据为最新的，而这个恢复的过程中，PG的状态会从inconsistent ->recover -> clean,最终恢复正常。

3K4 0

Ceph组件的状态

常见问题 1.硬盘失败。可以通过系统日志或SMART活动确认。有些有缺陷的硬盘因为密集的有时限的错误修复活动变的很慢。 2.网络连接问题。可以使用ping、iperf等普通网络工具进行调试。...PG 长时间卡在一些状态遇到失败后PG进入如 “degraded” 或 “peering”的状态是正常的。通常这些状态指示失败恢复处理过程中的正常继续。...2.unclean : PG太长时间不在clean态，例如PG不能完成从上一个失败的恢复，通常是unfound objects导致。...例如有3个副本的校验和，有1个不同，很容易猜出应该修复的错误副本（从其他副本恢复），但是当有3个不同的校验和或者一些比特错误，我们不能武断的说哪个是好的。这不是一个端到端的数据修正检查。...osd ssh {osd-node} systemctl restart ceph-osd@{osd-number} peering 和 down PG 找到受影响的pg ceph health detail

1.2K2 0

Cep PG 和 OSD 状态分析

Ceph OSD 状态分析up、down代表OSD临时故障或下电，不会发起数据恢复；in、out代表被踢出集群，集群发起数据恢复。...向 Monitor 发送失效报告，并将失败信息加入 failure_pending 队列，然后将其从 failure_queue 移除。f....PG 处于Stale状态时，无法对外服务，客户端的 IO 则是会被夯住，等待 PG 状态恢复。...PG 活动集任何的一个改变，数据发生从老活动集到新活动集的迁移。...在迁移期间还是用老的活动集中的主 OSD 处理客户端请求，一旦迁移完成新活动集中的主 OSD 开始处理misplaced有一些回填的场景：PG被临时映射到一个OSD上。

6771 1

osd监控埋点指标

pg数量 ceph.osd.numpg_primary 主pg数量 ceph.osd.numpg_replica 副本pg数量 ceph.osd.numpg_stray 删除的pg数量 ceph.osd.heartbeat_to_peers...刷新失败 ceph.osd.tier_try_flush 尝试刷新 ceph.osd.tier_try_flush_fail 尝试刷新失败 ceph.osd.tier_evict 逐出 ceph.osd.tier_whiteout...非回填恢复状态延迟平均数 ceph.recoverystate_perf.notbackfilling_latency.sum 非回填恢复状态延迟总数 ceph.recoverystate_perf.notbackfilling_latency.avgtime...不完全恢复状态的延迟平均时间 ceph.recoverystate_perf.down_latency.avgcount 挂掉恢复状态的延迟平均数 ceph.recoverystate_perf.down_latency.sum...挂掉恢复状态的延迟总数 ceph.recoverystate_perf.down_latency.avgtime 挂掉恢复状态的延迟平均时间 ceph.recoverystate_perf.getmissing_latency.avgcount

1.5K3 0

Ceph用户邮件列表Vol45-Issue1

(原文) Hi, I have a production cluster on which 1 OSD on a failing disk was slowing the whole cluster down...When I try to do “ceph pg PGID query” on this PG it also blocks....，作者贴出了pg dump，ceph -s,ceph osd dump相关信息，当出现异常的时候，需要人协助的时候，应该提供这些信息方便其他人定位问题，最后这个问题作者自己给出了自己的解决办法，出现的时候影响是当时的流量只有正常情况下的...or directory 这个时候查询集群的状态可以看到，集群已经正常的恢复了，不会因为一个对象的丢失造成集群的PG状态卡在待迁移状态可以看到请求是失败的但是不会像之前一样卡死的状态，卡死是比失败更严重的一种状态...，一般来说，底层磁盘的故障，写下去的对象当时记录着有，正好写入完成又准备写副本的时候，磁盘坏了，这个就有比较高的概率出现，所以出现了坏盘要尽早更换本系列是只会对列表的当天的非re进行一个汇总，这样保持了一个问题的追踪都在一篇里面

5842 0

ceph运维操作

ceph mds rm 0 # 删除一个不活跃的mds # 启动mds后，则恢复正常 3、关闭mds集群 ceph mds cluster_down 4、开启mds集群 ceph mds cluster_up...cephx仅用于Ceph集群中的各组件，而不能用于非Ceph组件。它并不解决数据传输加密问题，但也可以提高访问控制安全性问题。二：认证授权流程如下 1、客户端向Monitor请求创建用户。...pg ，可以根据需要过滤状态 ceph pg ls-by-primary osd.3 clean 13、恢复一个丢失的pg 如果集群丢了一个或多个对象，而且必须放弃搜索这些数据，你就要把未找到的对象标记为丢失...如果osd daemon正常运行，down的osd会很快自恢复正常,所以需要先关闭守护进程 ssh root@osd01 systemctl stop ceph-osd@0 ceph osd down...shutdown -h now # 4、开始维护当你对失败域中OSD维护时，其中的PG将会变为degraded状态。

3.1K1 1

ceph分布式存储学习指南实战

degraded :一旦有OSD 处于down 状态. Ceph 将分配到该OSD 上的所有PG 状态变为degraded 状态。...如果OSD 持续处于down 状态超过300s 后，它的状态将变为out ，此时Ceph 将会从副本中恢复所有处于degraded 状态的PG 以维持复制数。...在这种情况下， Ceph 将该PG 的状态标记为degraded 并试图从其副本中恢复PG recovering :当一个OSD 处于down 状态后，其PG 的内容将会落后于放置在其他 OSD...这样一旦OSD 恢复up 状态， Ceph 会针对这些PG 启动恢复操作，使得它们的数据与其他OSD 上的PG 副本保持一致。...remapped : 每当PG 的actmg 集合有变化，就会触发数据迁移，数据从老的acting 集舍OSD 向新的acting 集合OSD 转移。

6814 0

ceph-mimic版

group）是一个放置策略组，它是对象的集合，该集合里的所有对象都具有相同的放置策略，简单点说就是相同PG内的对象都会放到相同的硬盘上，PG是 ceph的逻辑概念，服务端数据均衡和恢复的最小粒度就是PG...主要功能是存储数据、复制数据、平衡数据、恢复数据，以及与其它OSD间进行心跳检查，负责响应客户端请求返回具体数据的进程等； Pool、PG和OSD的关系：一个Pool里有很多PG；一个...这样可以方便地监视Ceph群集的状态，并在发生故障时发送通知。安装前准备最少三台Centos7系统虚拟机用于部署Ceph集群。...down reporters = 13 #默认值1#向monitor报告down的最小OSD数 mon osd down out interval =...但是从Luminous开始，Ceph 提供了原生的Dashboard功能，通过Dashboard可以获取Ceph集群的各种基本状态信息。

8862 0

Ceph的pg算法

Ceph集群中的PG总数： PG总数 = (OSD总数 * 100) / 最大副本数结果必须舍入到最接近的2的N次方幂的值。...Ceph集群中每个pool中的PG总数：存储池PG总数 = (OSD总数 * 100 / 最大副本数) / 池数平衡每个存储池中的PG数和每个OSD中的PG数对于降低OSD的方差、避免速度缓慢的恢复再平衡进程是相当重要的...当任意pool的PG数增加时，PG依然保持和源OSD的映射。直至目前，Ceph还未开始再平衡。此时，增加pgp_num的值，PG才开始从源OSD迁移至其他的OSD，正式开始再平衡。...(2, int(log(pg_num,2) + 0.5)) num_down = pow(2, int(log(pg_num,2))) if abs(pg_num - num_up) <= abs(pg_num...- num_down): pg_num = num_up else: pg_num = num_down pgp_num = pg_num 修改存储池的PG和PGP ceph osd

2.7K2 0

ceph分布式存储-常见MON故障处理

peon 角色（非 leader 角色）。...这条规则会拒绝所有尝试连接该主机的客户端（除了 ssh ）。如果你的 monitor 主机设置了这条防火墙 REJECT 规则，客户端从其他节点连接过来时就会超时失败。...并且在启动后，新加入的成员会和其他健康的伙伴进行同步，一旦同步完成，它就可以为客户端提供服务了。通过 OSDs 恢复但是万一所有的 monitors 都同时失败了该怎么办？...已知的限制下面这些信息无法通过上述步骤恢复：一些新增的 keyring ：通过 ceph auth add 命令增加的所有 OSD keyrings 都可以恢复。...pg 的设置：通过 ceph pg set_full_ratio 和 ceph pg set_nearfull_ratio 命令设置的 full ratio 和 nearfull ratio 值会丢失。

2.3K2 0

Ceph心跳机制

Ceph OSD与Mon心跳检测 ? OSD报告给Monitor： OSD有事件发生时（比如故障、PG变更）。自身启动5秒内。...OSD周期性的上报给Monito OSD检查failure_queue中的伙伴OSD失败信息。...向Monitor发送失效报告，并将失败信息加入failure_pending队列，然后将其从failure_queue移除。...收到来自failure_queue或者failure_pending中的OSD的心跳时，将其从两个队列中移除，并告知Monitor取消之前的失效报告。...凝视失败的OSD报告 Ceph的OSD守护进程如果不能和Ceph的配置文件（或群集地图）中定义的OSD守护同行，它将每30秒ping一个Ceph的监视器，为了最新副本的集群映射图。

2.4K5 0

Ceph架构概览

ceph 客户端从ceph monitor获取cluster map,然后执行在pool中的pg执行IO操作。cursh ruleset和pg的数量是决定数据对象放在哪里的核心因素。...比如10个数据块，6个校验块，一共16个块分布式16个osd中，原始10个数据块可以从6个osd中进行恢复。即使6个osd宕机，ceph集群也不会都是数据。...ObjectStore写入一个事务要么成功要么失败，这是体现了原子性。数据对象存在ceph集群有一个唯一的编号、数据、元数据，因此ObjectStore根据这些信息来保证数据对象的一致性。...4.K/V Store:ceph内部实现的key/value数据库 BlueStore介绍针对ssd或者非易失内存、NVME，采用FileStore实现对象存储有太多的限制。...当osd加入到集群，osd会上报自身的状态给montior,一般osd会有up和down状态来反应osd是否是运行正常和客户端是否可以从这个osd请求数据。

1.3K2 0

Ceph：关于 Ceph 存储架构的一些笔记

OSD (Object Storage Daemon): 对象存储设备,守护进程,存储数据并处理数据复制、恢复和重新平衡, MGR (Managers,ceph-mgr): 管理器(非必须),守护进程,...文件系统的客户端首先向 MDS 发出请求，这会提供必要的信息以便从正确的 OSD 获取文件内容查看 Ceph 集群的 MDS（Metadata Server）服务信息 ceph mds dump：显示所有的...: PG 的状态，表示 PG 在当前时间点内的活动情况和健康状况。...MISPLACED: 在非预期 OSD 上的对象数量。 UNFOUND: 未找到的对象数量。 BYTES: PG 中对象的总字节数。 OMAP_BYTES: PG 中对象元数据的总字节数。...REPORTED: 汇报 PG 状态的 OSD 的编号。 UP: 处于活动状态的 OSD 编号列表。 UP_PRIMARY: 作为主 OSD 进行同步的 OSD 编号。

8691 0

《大话 Ceph 》之 PG 那点事儿

，现在就来分析下每种病症的原因: 这里再次回忆下集群的配置：size = 3, min_size = 2 1、Degraded 降级：由上文可以得知，每个PG有三个副本，分别保存在不同的OSD中，在非故障情况下...3、Remapped Ceph 强大的自我恢复能力，是我们选择它的一个重要原因，在上面的试验中，我们关闭了两个 OSD，但是至少还有一个 PG 0.44存活在 osd.0 上，如果那两个盘真的坏了，Ceph...还是可以将这份仅存的数据恢复到别的OSD上的。...想要修复丢失的文件呢，只需要执行 ceph pg repair 0.44，ceph就会从别的副本中将丢失的文件拷贝过来，这也是ceph自愈的一个情形。...，Ceph 就发现，osd.4的char文件是陈旧的，就通过别的 OSD 向 osd.4 进行数据的恢复，使其数据为最新的，而这个恢复的过程中，PG就会被标记为 recover。

9.1K8 3

kubernetes（十九） Ceph存储入门

group）是一个放置策略组，它是对象的集合，该集合里的所有对象都具有相同的放置策略，简单点说就是相同PG内的对象都会放到相同的硬盘上，PG是 ceph的逻辑概念，服务端数据均衡和恢复的最小粒度就是PG...但是从Luminous开始，Ceph 提供了原生的Dashboard功能，通过Dashboard可以获取Ceph集群的各种基本状态信息。...又或者是某个OSD的状态变成了down,那么该OSD上的所有PG都会被标记为degraded。...Recovering(恢复中) 当某个OSD因为某些原因down了,该OSD内PG的object会落后于它所对应的PG副本。...OSD为down时,该PG便会被标记为stale。

3.4K3 0

ceph分布式存储-常见OSD故障处理.md

stop ceph-osd id={num} 注意：在定位某故障域内的问题时，停机的 OSD 内的 PG 状态会变为 degraded 。维护结束后，重启 OSD 。...网络问题 Ceph 是一个分布式存储系统，所以它依赖于网络来互联 OSD 们、复制对象、从错误中恢复和检查心跳。...如果有其它进程共享驱动器，顺序读写吞吐量会成为瓶颈，包括日志、操作系统、monitor 、其它 OSD 和非 Ceph 进程。...恢复限流根据你的配置， Ceph 可以降低恢复速度来维持性能，否则它会加快恢复速度而影响 OSD 的性能。检查下 OSD 是否正在恢复。内核版本检查下你在用的内核版本。...（查看 dmesg 输出）内核文件系统缺陷（查看 dmesg 输出）集群过载（检查系统负载、 iostat 等等） ceph-osd 守护进程的 bug 可能的解决方法：从 Ceph 主机分离 VM

3.8K2 0

万字长文细讲分布式存储系统 Ceph 实战操作

# 查看ceph集群状态，非交互式 cephadm shell ceph status # 或者 cephadm shell ceph -s 您可以安装 ceph-common 包，其中包含所有 Ceph...168-182-130 如果主机处于脱机状态且无法恢复，仍可以通过以下方法将其从群集中移除： # ceph orch host rm --offline --force ceph orch...ceph orch apply osd --all-available-devices --dry-run 3、移除 OSD 从集群中删除 OSD 涉及两个步骤：从集群中撤出所有归置组（PG）...从集群中删除无 PG 的 OSD 以下命令执行这两个步骤： # ceph orch osd rm [--replace] [--force] ceph orch osd rm...1、查看 pg 组的映射信息 ceph pg dump # 或者 # ceph pg ls 2、查看一个 PG 的 map ceph pg map 7.1a 3、查看 PG 状态 ceph pg stat

2.3K1 0

PG详解

从用途来说，搞个映射本身不是目的，让故障或者负载均衡变得可操作是目的。为了降低对数量巨大的对象的管理难度，增加一层pg来管理。...当OSDdown掉五分钟后，集群会自动将这个OSD标为out, 然后将缺少的PGremap到其他OSD上进行恢复以保证副本充足，这个五分钟的配置项是mon osd down out...Ceph提供了一些配置项，用来解决客户端请求和数据恢复的请求优先级问题，这些配置参考上面加粗的字体吧。...Remmapped 当Acting集合里面的PG组合发生变化时，数据从旧的集合迁移到新的集合中。...Incomplete 当一个PG被标记为incomplete,说明这个PG内容不完整或者peer失败，比如没有一个完整的OSD用来恢复数据了。

1.2K3 0

ceph分布式存储-MON模块内部结构分析

PaxosService的dispatch内部调用子类的preprocess_query进行查询相关操作，如果非查询类处理，再调用子类的prepare_update接口实现数据的更新，所以子类Monitor...发送该消息 preprocess_mark_me_down prepare_mark_me_down MSG_OSD_FAILURE MOSDFailure 1....OSD每隔OSD_TICK_INTERVAL检测心跳无响应的OSD，并将失败的OSD report给Monitor 2....CEPH_MSG_STATFS MStatfs 返回文件系统osd占用的kb容量 handle_statfs MSG_PGSTATS MPGStats 查询或者更新pg状态 preprocess_pg_stats...MMonCommand 处理ceph pg xxx相关命令行 preprocess_command 3.5 MonMapMonitor 消息类型消息结构体消息作用处理接口 MSG_MON_JOIN

1.6K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭