文章/答案/技术大牛

发布

社区首页 >问答首页 >Ceph集群关闭，OSD完全启动的原因-没有启动

问Ceph集群关闭，OSD完全启动的原因-没有启动
EN

Stack Overflow用户

提问于 2022-02-10 09:55:16

回答 1查看 655关注 0票数 0

Cephadm Pacific v16.2.7我们的Ceph集群卡住了，pgs退化了，osd下降了，原因是：-OSD被填满了

Things我们尝试过

将vale改为最大可能的组合(不确定是否已完成，对吗?)回填<近满>近满<满>和满<< failsafe_full

C年会--objectstore--工具--尝试用一些pgs来恢复空间。

试图安装osd和删除pg，以恢复一些空间，但不确定如何做到这一点在蓝色。

全球复苏事件-永远停滞不前

ceph -s 


cluster:
    id:     a089a4b8-2691-11ec-849f-07cde9cd0b53
    health: HEALTH_WARN
            6 failed cephadm daemon(s)
            1 hosts fail cephadm check
            Reduced data availability: 362 pgs inactive, 6 pgs down, 287 pgs peering, 48 pgs stale
            Degraded data redundancy: 5756984/22174447 objects degraded (25.962%), 91 pgs degraded, 84 pgs undersized
            13 daemons have recently crashed
            3 slow ops, oldest one blocked for 31 sec, daemons [mon.raspi4-8g-18,mon.raspi4-8g-20] have slow ops.

  services:
    mon: 5 daemons, quorum raspi4-8g-20,raspi4-8g-25,raspi4-8g-18,raspi4-8g-10,raspi4-4g-23 (age 2s)
    mgr: raspi4-8g-18.slyftn(active, since 3h), standbys: raspi4-8g-12.xuuxmp, raspi4-8g-10.udbcyy
    osd: 19 osds: 15 up (since 2h), 15 in (since 2h); 6 remapped pgs

  data:
    pools:   40 pools, 636 pgs
    objects: 4.28M objects, 4.9 TiB
    usage:   6.1 TiB used, 45 TiB / 51 TiB avail
    pgs:     56.918% pgs not active
             5756984/22174447 objects degraded (25.962%)
             2914/22174447 objects misplaced (0.013%)
             253 peering
             218 active+clean
             57  undersized+degraded+peered
             25  stale+peering
             20  stale+active+clean
             19  active+recovery_wait+undersized+degraded+remapped
             10  active+recovery_wait+degraded
             7   remapped+peering
             7   activating
             6   down
             2   active+undersized+remapped
             2   stale+remapped+peering
             2   undersized+remapped+peered
             2   activating+degraded
             1   active+remapped+backfill_wait
             1   active+recovering+undersized+degraded+remapped
             1   undersized+peered
             1   active+clean+scrubbing+deep
             1   active+undersized+degraded+remapped+backfill_wait
             1   stale+active+recovery_wait+undersized+degraded+remapped

  progress:
    Global Recovery Event (2h)
      [==========..................] (remaining: 4h)


'''

block-storage

cephadm

storage

ceph

cephfs

回答 1

Stack Overflow用户

发布于 2022-02-13 12:44:06

一些版本的BlueStore很容易受到BlueFS日志增长的影响--超过了使启动OSD成为不可能的程度。这个状态是通过引导来表示的，这需要很长时间，并且在_replay函数中失败。

这可以通过以下方法来解决：：ceph tool-path osd path -bluefs_replay_recovery=true

建议首先检查救援过程是否成功：：ceph工具fsck -path osd path -bluefs_replay_recovery=true-bluefs_replay_recovery_disable_compact=true。

如果上述fsck成功，则可以应用修复过程。

特别谢谢您，这个问题已经在dewDrive云备份教员的帮助下解决了

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71062982

复制

相似问题

问Ceph集群关闭，OSD完全启动的原因-没有启动
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ceph集群关闭，OSD完全启动的原因-没有启动EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ceph集群关闭，OSD完全启动的原因-没有启动
EN