Ceph入门到精通-ceph故障处理 - osd down处理

这篇具有很好参考价值的文章主要介绍了Ceph入门到精通-ceph故障处理 - osd down处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ceph故障处理 - osd down处理

  1. 发现osd掉之后,我们首先要确认是哪个主机的哪块盘,来判断是这个盘坏了还是什么原因
[root@test-3-134 devops]# ceph -s
  cluster:
    id:     380a1e72-da89-4041-8478-76383f5f6378
    health: HEALTH_WARN
            11 daemons have recently crashed
 
  services:
    mon: 3 daemons, quorum test-3-134,test-3-137,test-3-139 (age 7w)
    mgr: test-3-139(active, since 4w), standbys: test-3-31, test-3-137
    osd: 84 osds: 82 up (since 4d), 82 in (since 4d)   # 这里可以看到是掉了两块盘
    rgw: 1 daemon active (test-3-31)
 
  task status:
 
  data:
    pools:   8 pools, 640 pgs
    objects: 5.55M objects, 20 TiB
    usage:   39 TiB used, 395 TiB / 434 TiB avail
    pgs:     639 active+clean
             1   active+clean+scrubbing+deep
 
  io:
    client:   35 MiB/s rd, 86 MiB/s wr, 285 op/s rd, 465 op/s wr

来看一下是哪两块

[root@test-3-134 devops]# ceph osd tree  
-15        32.74818     host test-3-32                          
 87   hdd   3.63869         osd.87                                           up  1.00000 1.00000 
 88   hdd   3.63869         osd.88                                           up  1.00000 1.00000 
 89   hdd   3.63869         osd.89                                           up  1.00000 1.00000 
 90   hdd   3.63869         osd.90                                           up  1.00000 1.00000 
 91   hdd   3.63869         osd.91                                           up  1.00000 1.00000 
 92   hdd   3.63869         osd.92                                           up  1.00000 1.00000 
 93   hdd   3.63869         osd.93                                           up  1.00000 1.00000 
 94   hdd   3.63869         osd.94                                           up  1.00000 1.00000 
 95   hdd   3.63869         osd.95                                         down        0 1.00000 
-13        32.74818     host test-3-33                          
 78   hdd   3.63869         osd.78                                           up  1.00000 1.00000 
 79   hdd   3.63869         osd.79                                           up  1.00000 1.00000 
 80   hdd   3.63869         osd.80                                           up  1.00000 1.00000 
 81   hdd   3.63869         osd.81                                           up  1.00000 1.00000 
 82   hdd   3.63869         osd.82                                         down        0 1.00000 
 83   hdd   3.63869         osd.83                                           up  1.00000 1.00000 
 84   hdd   3.63869         osd.84                                           up  1.00000 1.00000 
 85   hdd   3.63869         osd.85                                           up  1.00000 1.00000 
 86   hdd   3.63869         osd.86                                           up  1.00000 1.00000 

登录对应机器确认下是哪块盘

[root@test-3-32 ~]# ceph-volume lvm list |grep -E "osd\.|dev"
====== osd.95 ======
  [block]       /dev/ceph-f4e2366c-d871-4910-a044-ed52de2a397e/osd-block-3e44b34d-3881-4e34-ad9e-5e1906617c07
      block device              /dev/ceph-f4e2366c-d871-4910-a044-ed52de2a397e/osd-block-3e44b34d-3881-4e34-ad9e-5e1906617c07
      crush device class        None
      devices                   /dev/sdk
[root@test-3-32 ~]# lsblk 
NAME                                                                                                  MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sdf                                                                                                     8:80   0   3.7T  0 disk  
sdd                                                                                                     8:48   0   3.7T  0 disk  
└─ceph--589b2759--4c59--49c0--8081--612bfa3ed91a-osd--block--39f28dca--a05d--49fa--a92c--ab650d24a4d4 253:4    0   3.7T  0 lvm   
sdk                                                                                                     8:160  0   3.7T  0 disk  
└─ceph--f4e2366c--d871--4910--a044--ed52de2a397e-osd--block--3e44b34d--3881--4e34--ad9e--5e1906617c07 253:1    0   3.7T  0 lvm   

2.我们发现盘还在,首先尝试能否重启ceph-osd服务 ,这里已经拉起来了

[root@test-3-32 ~]# systemctl | grep ceph
● ceph-osd@95.service                                                                                                                                           loaded failed     failed       Ceph object storage daemon osd.95
[root@test-3-32 ~]# systemctl restart ceph-osd@95.service
[root@test-3-32 ~]# systemctl status ceph-osd@95.service
● ceph-osd@95.service - Ceph object storage daemon osd.95
   Loaded: loaded (/usr/lib/systemd/system/ceph-osd@.service; enabled-runtime; vendor preset: disabled)
   Active: active (running) since Mon 2022-08-08 15:04:30 CST; 10s ago
  Process: 1062974 ExecStartPre=/usr/lib/ceph/ceph-osd-prestart.sh --cluster ${CLUSTER} --id %i (code=exited, status=0/SUCCESS)
 Main PID: 1062980 (ceph-osd)
   CGroup: /system.slice/system-ceph\x2dosd.slice/ceph-osd@95.service
           └─1062980 /usr/bin/ceph-osd -f --cluster ceph --id 95 --setuser ceph --setgroup ceph

3.如果重启无望或者盘漂移,重新卸载安装

3.1 看看日志 是不是有磁盘报错

egrep -i 'medium|i\/o error|sector|Prefailure' /var/log/messages

3.2.直接踢掉

osdid=82
systemctl stop ceph-osd@$osdid.service
ceph osd out osd.$osdid
 ceph osd crush rm osd.$osdid
 ceph auth del osd.$osdid
 ceph osd down osd.$osdid
 ceph osd rm osd.$osdid
 ceph osd rm $osdid

or   还没有仔细看这两个区别,试了一下两个都可以下掉osd

OSD=54
ceph osd ok-to-stop osd.$OSD
ceph osd safe-to-destroy osd.$OSD
 ceph osd down osd.$OSD
ceph osd purge  osd.$OSD --yes-i-really-mean-it

3.3.重新格式化再添加

# 有时候需要取消下  dmsetup ls
# dmsetup remove ceph--c0df59cb--3c80--4caf--8af4--dd43e0be7786-osd--block--53ade74d--be95--4997--8f24--d9cd34e6ee41
mkfs.xfs -f /dev/sdm 
ceph-deploy osd create --data  /dev/sdg test-3-33
# or
# ceph-deploy --overwrite-conf osd create --data  /dev/sdn  dx-lt-yd-zhejiang-jinhua-5-10-104-1-130

参考文档

Ceph OSD为DOWN时修复:Ceph OSD为DOWN时修复_osd down_夜雨狂歌如梦的博客-CSDN博客

本文作者:鸣昊

本文链接:https://www.cnblogs.com/x602/p/16562160.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。文章来源地址https://www.toymoban.com/news/detail-429966.html

到了这里,关于Ceph入门到精通-ceph故障处理 - osd down处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 存储重启后,ceph挂载信息没了,手动定位osd序号并挂载到对应磁盘操作流程、ceph查看不到osd信息处理方法

    我们的一个存储节点莫名其妙的重启了,不知道咋回事 但这样的问题就是,所有osd都down了 因为挂载信息没有写到fstab里面,所以不会自动up,并且没有挂载信息,并且也看不到osd信息了,需要手动一一挂载后才能正常up和看到osd信息

    2024年02月15日
    浏览(43)
  • Ceph入门到精通-ceph 源码编译

    Please see https://ceph.com/ for current info. Most of Ceph is dual licensed under the LGPL version 2.1 or 3.0. Some miscellaneous code is under a BSD-style license or is public domain. The documentation is licensed under Creative Commons Attribution Share Alike 3.0 (CC-BY-SA-3.0). There are a handful of headers included here that are licensed under the GP

    2024年02月12日
    浏览(38)
  • Ceph入门到精通-Ceph版本升级命令

    Cephadm 可以安全地将 Ceph 从一个错误修复版本升级到下一个错误修复版本。为 例如,你可以从v15.2.0(第一个八达通版本)升级到下一个 点发布,v15.2.1。 自动升级过程遵循 Ceph 最佳实践。例如: 升级顺序从管理器、监视器开始,然后是其他守护程序。 每个守护程序仅在 Ce

    2024年02月10日
    浏览(45)
  • Ceph入门到精通-Ceph PG状态详细介绍(全)

    本文主要介绍PG的各个状态,以及ceph故障过程中PG状态的转变。 Ceph is still creating the placement group. Ceph 仍在创建PG。 activating The placement group is peered but not yet active. PG已经互联,但是还没有active。 active Ceph will process requests to the placement group. Ceph 可处理到此PG的请求。 clean Ceph re

    2024年02月14日
    浏览(35)
  • Ceph入门到精通-Linux下Ceph源码编译和GDB调试

    Ceph版本:14.2.22 Linux版本:ubuntu-server 18.04     Ceph源码是托管在Github上,由于某些原因,国内访问Github网站很慢,所以需要从其他途径加速获取源码。Github官方给出了几个Github的镜像网站: https://github.com.cnpmjs.org/ https://hub.fastgit.org/ 本地需要修改~/.gitconfig文件,才可以从上面

    2024年02月12日
    浏览(30)
  • Ceph入门到精通-podman 入门实战

    目录 podman安装 podman制作本地镜像 podman(docker)命令回顾 podman快速入门 一入编程深似海,从此节操是路人。 最近使用podman,就想着写一篇总结性的笔记,以备后续参考。就如同写代码,不写注释,过了一段时间可能会想这是我写的吗?不会吧,还要理一下逻辑才能读懂,不利

    2023年04月24日
    浏览(42)
  • Ceph入门到精通-sysctl参数优化

    sysctl.conf  是一个文件,通常用于在 Linux 操作系统中配置内核参数。这些参数可以控制网络、文件系统、内存管理等各方面的行为。 99-xx.yml  可能是一个文件名,其中  99-  是一个特定的命名约定。在  sysctl.conf  文件中,通常会有一个特定的顺序来加载配置项。通常,以 

    2024年02月10日
    浏览(36)
  • Ceph入门到精通-创建存储桶通知

    在存储桶级别创建存储桶通知。这些需要 与发送存储桶通知的目标一起发布。桶 通知是 S3 操作。 父主题: 存储桶管理 运行 IBM Storage Ceph 集群,带有 Ceph Object Gateway。 正在运行的 HTTP 服务器、RabbitMQ 服务器或 Kafka 服务器。 根级访问。 用户访问密钥和私有密钥。 终结点参数

    2024年02月15日
    浏览(76)
  • 【ceph】如何将osd的内容挂载出来---ceph-objectstore-tool 实现

      本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8》暂未更新 《docker学习》暂未更新 《ceph学习》

    2024年02月02日
    浏览(35)
  • 关于ceph osd auth keyring

    关于osd auth 认证 如果在删除osd时,id指定错误,错误执行了ceph auth del osd.x,此时osd工作目录还在,osd重启会因为认证无法启动。只要重新添加该osd auth认证即可 上述原理和命令对于各位运维来说应该非常熟悉,不算新鲜命令,不做展开。 上述命令从另一个角度,也可以理解

    2024年04月15日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包