首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Ceph集群关闭,OSD完全启动的原因-没有启动

Ceph集群关闭,OSD完全启动的原因-没有启动
EN

Stack Overflow用户
提问于 2022-02-10 09:55:16
回答 1查看 655关注 0票数 0

Cephadm Pacific v16.2.7我们的Ceph集群卡住了,pgs退化了,osd下降了,原因是:-OSD被填满了

Things我们尝试过

将vale改为最大可能的组合(不确定是否已完成,对吗?)回填<近满>近满<满>和满<< failsafe_full

C年会--objectstore--工具--尝试用一些pgs来恢复空间。

试图安装osd和删除pg,以恢复一些空间,但不确定如何做到这一点在蓝色。

全球复苏事件-永远停滞不前

代码语言:javascript
复制
ceph -s 


cluster:
    id:     a089a4b8-2691-11ec-849f-07cde9cd0b53
    health: HEALTH_WARN
            6 failed cephadm daemon(s)
            1 hosts fail cephadm check
            Reduced data availability: 362 pgs inactive, 6 pgs down, 287 pgs peering, 48 pgs stale
            Degraded data redundancy: 5756984/22174447 objects degraded (25.962%), 91 pgs degraded, 84 pgs undersized
            13 daemons have recently crashed
            3 slow ops, oldest one blocked for 31 sec, daemons [mon.raspi4-8g-18,mon.raspi4-8g-20] have slow ops.

  services:
    mon: 5 daemons, quorum raspi4-8g-20,raspi4-8g-25,raspi4-8g-18,raspi4-8g-10,raspi4-4g-23 (age 2s)
    mgr: raspi4-8g-18.slyftn(active, since 3h), standbys: raspi4-8g-12.xuuxmp, raspi4-8g-10.udbcyy
    osd: 19 osds: 15 up (since 2h), 15 in (since 2h); 6 remapped pgs

  data:
    pools:   40 pools, 636 pgs
    objects: 4.28M objects, 4.9 TiB
    usage:   6.1 TiB used, 45 TiB / 51 TiB avail
    pgs:     56.918% pgs not active
             5756984/22174447 objects degraded (25.962%)
             2914/22174447 objects misplaced (0.013%)
             253 peering
             218 active+clean
             57  undersized+degraded+peered
             25  stale+peering
             20  stale+active+clean
             19  active+recovery_wait+undersized+degraded+remapped
             10  active+recovery_wait+degraded
             7   remapped+peering
             7   activating
             6   down
             2   active+undersized+remapped
             2   stale+remapped+peering
             2   undersized+remapped+peered
             2   activating+degraded
             1   active+remapped+backfill_wait
             1   active+recovering+undersized+degraded+remapped
             1   undersized+peered
             1   active+clean+scrubbing+deep
             1   active+undersized+degraded+remapped+backfill_wait
             1   stale+active+recovery_wait+undersized+degraded+remapped

  progress:
    Global Recovery Event (2h)
      [==========..................] (remaining: 4h)


'''
EN

回答 1

Stack Overflow用户

发布于 2022-02-13 12:44:06

一些版本的BlueStore很容易受到BlueFS日志增长的影响--超过了使启动OSD成为不可能的程度。这个状态是通过引导来表示的,这需要很长时间,并且在_replay函数中失败。

这可以通过以下方法来解决::ceph tool-path osd path -bluefs_replay_recovery=true

建议首先检查救援过程是否成功::ceph工具fsck -path osd path -bluefs_replay_recovery=true-bluefs_replay_recovery_disable_compact=true。

如果上述fsck成功,则可以应用修复过程。

特别谢谢您,这个问题已经在dewDrive云备份教员的帮助下解决了

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71062982

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档