Ceph入门到精通-bluestore IO流程及导入导出

这篇具有很好参考价值的文章主要介绍了Ceph入门到精通-bluestore IO流程及导入导出。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

bluestore

直接管理裸设备,实现在用户态下使用linux aio直接对裸设备进行I/O操作

Ceph入门到精通-bluestore IO流程及导入导出,Ceph入门到精通,ceph

写IO流程:
一个I/O在bluestore里经历了多个线程和队列才最终完成,对于非WAL的写,比如对齐写、写到新的blob里等,I/O先写到块设备上,然后元数据提交到rocksdb并sync了,才返回客户端写完成(在STATE_KV_QUEUED状态的处理);对于WAL(即覆盖写),没有先把数据写块设备,而是将数据和元数据作为wal一起提交到rocksdb并sync后,这样就可以返回客户端写成功了,然后在后面的动作就是将wal里的数据再写到块设备的过程,对这个object的读请求要等到把数据写到块设备完成整个wal写I/O的流程后才行,代码里对应的是_do_read里先o->flush()的操作,所以bluestore里的wal就类似filestore里的journal的作用

bluestore 元数据

Bluestore的 所有的元数据都以KV对的形式写入RocksDB中,主要有以下的元数据:

// 保存BlueStore的超级块信息,在KV中, 以PREFIX_SUPER为Key的前缀 
const string PREFIX_SUPER = “S”; // field -> value
// 保存Collection的元数据信息bluestore_cnode_t 
const string PREFIX_COLL = “C”; // collection name -> cnode_t
// 保存对象的元数据信息 
const string PREFIX_OBJ = “O”; // object name -> onode_t

//需要主要的是,onode 和 enode的信息 都 以PREFIX_OBJ 为前缀,只是同一个对象的onode和 enode的信息的key不同来区分。

// 保存 overly 信息 
const string PREFIX_OVERLAY = “V”; // u64 + offset -> data

// 保存对象的omap 信息 
const string PREFIX_OMAP = “M”; // u64 + keyname -> value

// 保存 write ahead log 信息 
const string PREFIX_WAL = “L”; // id -> wal_transaction_t

// 保存块设备的空闲extent信息 
const string PREFIX_ALLOC = “B”; // u64 offset -> u64 length (freelist)
ceph bluefs

内存文件系统,mount的时候,通过扫码日志,在内存中还原出整个文件系统的状况

ceph 高级工具
  • ceph-bluestore-tool
ceph-bluestore-tool bluefs-export --path /var/lib/ceph/osd/ceph-0 --out-dir ./osd0
  • ceph-kvstore-tool
ceph-kvstore-tool bluestore-kv /var/lib/ceph/osd/ceph-0/ list > ceph.osd0.kvstore
ceph-kvstore-tool rocksdb /var/lib/ceph/mon/ceph-storage46/store.db/ list > mon.list
ceph-kvstore-tool bluestore-kv /var/lib/ceph/osd/ceph-0/ get C 1.11_head out tmp
  • ceph-objectstore-tool
ceph-objectstore-tool --op list-pgs --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore
ceph-objectstore-tool --pgid 7.0 --op log --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore > pglog.txt
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore --pgid 17.3 hello.txt get-bytes
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore hello.txt get-attr -
ceph crush算法

image.png

osd crush weight和 osd reweight区别

OSD上面数据相对不平衡时,我们应该使用ceph osd reweight 命令修改reweight值,而不应该使用ceph osd crush reweight 命令修改weight值。原因在于,修改reweight值将不会改变bucket的weight,而如果修改weight值就会改变整个bucket的weight。bucket weight 一旦改变,就会导致数据在bucket之间进行迁移,而不是在bucket内部进行迁移,这能最小化数据的转移量

ceph pg平衡工具
  • reweight
  • balancer
  • upmap+osdmap
    http://www.strugglesquirrel.com/2019/05/22/超实用的pg均衡工具upmap/
操作rados
import rados
import sys

cluster = rados.Rados(conffile='/etc/ceph/ceph.conf')
print "\nlibrados version: " + str(cluster.version())
print "Will attempt to connect to: " + str(cluster.conf_get('mon initial members'))

cluster.connect()

print "\nCluster ID: " + cluster.get_fsid()

print "\n\nCluster Statistics"
print "=================="
cluster_stats = cluster.get_cluster_stats()

for key, value in cluster_stats.iteritems():
    print key, value

ioctx = cluster.open_ioctx('mypool')
ioctx.aio_write("name","liu",offset=0)
ioctx.aio_write("name","liu",offset=1024)
ioctx.aio_flush()
参考

ceph bluestore非对齐写入策略
https://blog.csdn.net/Z_Stand/article/details/99654729

ceph 读流程

从Primary OSD中读取(offset,length)指定部分的内容即可,不牵扯到多个OSD之间的交互

Ceph入门到精通-bluestore IO流程及导入导出,Ceph入门到精通,ceph

image.png

ceph 写流程

写流程之所以比读流程复杂源于多个方面

  • 牵扯多个OSD的写入,如何确保多副本之间一致性 (PGLog)
  • 对于单个OSD的写入,如何确保最终的一致性 (Journal and FileStore)
  • 多个副本所在的OSD,状态可能不是active + clean文章来源地址https://www.toymoban.com/news/detail-734200.html

到了这里,关于Ceph入门到精通-bluestore IO流程及导入导出的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Ceph入门到精通-ceph故障处理 - osd down处理

    发现osd掉之后,我们首先要确认是哪个主机的哪块盘,来判断是这个盘坏了还是什么原因 来看一下是哪两块 登录对应机器确认下是哪块盘 2.我们发现盘还在,首先尝试能否重启ceph-osd服务 ,这里已经拉起来了 3.如果重启无望或者盘漂移,重新卸载安装 3.1 看看日志 是不是有

    2024年02月01日
    浏览(37)
  • Ceph入门到精通-Linux下Ceph源码编译和GDB调试

    Ceph版本:14.2.22 Linux版本:ubuntu-server 18.04     Ceph源码是托管在Github上,由于某些原因,国内访问Github网站很慢,所以需要从其他途径加速获取源码。Github官方给出了几个Github的镜像网站: https://github.com.cnpmjs.org/ https://hub.fastgit.org/ 本地需要修改~/.gitconfig文件,才可以从上面

    2024年02月12日
    浏览(30)
  • Ceph入门到精通-podman 入门实战

    目录 podman安装 podman制作本地镜像 podman(docker)命令回顾 podman快速入门 一入编程深似海,从此节操是路人。 最近使用podman,就想着写一篇总结性的笔记,以备后续参考。就如同写代码,不写注释,过了一段时间可能会想这是我写的吗?不会吧,还要理一下逻辑才能读懂,不利

    2023年04月24日
    浏览(42)
  • ceph之rados设计原理与实现第五章:高效的本地对象存储引擎Bluestore

    由于FileStore底层仍然通过操作系统自带的本地文件系统管理磁盘,所以为了能够使用本地文件系统,所有针对RADOS的操作都需要转换成POSIX语义。 所以引入了BlueStore直接管理文件。 文件系统提供的核心操作就是读和写,BlueStore也是。 对于文件系统, 读操作除非缓存命中,否

    2024年02月02日
    浏览(58)
  • Ceph入门到精通-sysctl参数优化

    sysctl.conf  是一个文件,通常用于在 Linux 操作系统中配置内核参数。这些参数可以控制网络、文件系统、内存管理等各方面的行为。 99-xx.yml  可能是一个文件名,其中  99-  是一个特定的命名约定。在  sysctl.conf  文件中,通常会有一个特定的顺序来加载配置项。通常,以 

    2024年02月10日
    浏览(36)
  • Ceph入门到精通-创建存储桶通知

    在存储桶级别创建存储桶通知。这些需要 与发送存储桶通知的目标一起发布。桶 通知是 S3 操作。 父主题: 存储桶管理 运行 IBM Storage Ceph 集群,带有 Ceph Object Gateway。 正在运行的 HTTP 服务器、RabbitMQ 服务器或 Kafka 服务器。 根级访问。 用户访问密钥和私有密钥。 终结点参数

    2024年02月15日
    浏览(76)
  • Ceph入门到精通-LVS基础知识

    LB集群:    (Load  Balancing)即负载均衡集群,其目的是为了提高访问的并发量及提升服务器的性能,其    实现方式分为硬件方式和软件方式。   硬件实现方式:         常用的有 F5公司的BIG-IP系列、A10公司的AX系列、Citrix公司的 NetScaler系列等   软件实现方式:   

    2024年02月11日
    浏览(36)
  • Ceph入门到精通-如何编译安装Quagga?

    Quagga Quagga中文翻译斑驴,是一种先进的路由软件包,提供一套基于TCP/IP的路由协议。 – 使得操作系统变成专业的路由 – 使得操作系统具有与传统路由通过路由协议直接对接 – BGP – OSPF – RIP – IS-IS – MPLS – LDP – BFD – PIM-SSM – 传统路由以提供所有路由协议的过程程序的

    2024年02月11日
    浏览(38)
  • Ceph入门到精通-更换osd、扩容osd

    1. 1 查看故障盘osd id 1.2 销毁osd 1.3 更换故障硬盘 1.4 查看新硬盘盘符 1.5 擦除新硬盘 1.6 预备替换原osd 1.7 查看osd fsid 1.8 激活osd 3.1 停止所有osd服务 3.2 销毁所有osd 3.3 擦除磁盘数据 3.4 清除crush数据 3.5 删除osd应用 4. 调整PG

    2024年02月19日
    浏览(40)
  • Ceph入门到精通-Nginx超时参数分析设置

    nginx中有些超时设置,本文汇总了nginx中几个超时设置 Nginx 中的超时设置包括: “client_body_timeout”:设置客户端向服务器发送请求体的超时时间,单位为秒。 “client_header_timeout”:设置客户端向服务器发送请求头的超时时间,单位为秒。 “send_timeout”:设置服务器向客户端

    2024年02月07日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包