前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >小甲陪你一起看Ceph (OSDC | 上篇)

小甲陪你一起看Ceph (OSDC | 上篇)

作者头像
腾讯云TStack
修改2019-05-16 16:25:24
8K0
修改2019-05-16 16:25:24
举报

最近的深圳天气,小雨到阵雨到大雨

小甲师兄有个喜好——喜欢下雨:每逢下雨天,不是诗兴大发,就是代码撸的飞起。再加上最近在优化rbd,小甲把之前分析的OSDC代码分享给大家

这些都是小甲个人的理解,如果不对还望指正

1.OSDC是什么

OSDC其实是一个osd client模块的简称,在rbd和cephfs两个应用中都用到了,这个模块主要用来跟rados交互,这个模块里面完成了几个主要的功能:

(1) 地址空间的转换:从rbd或者cephfs文件的一维地址空间转换到对象的三维地址空间,也简称为对象化

(2) objectcacher:一个object级别的缓存

(3) Crush算法定位osd:在转化为三维地址空间之后,就使用Crush算法进行对象的数据定位

本文主要是介绍前两点,小甲师兄14年刚开始接触ceph使用的是0.80.5版本(firefly),本文的分析是基于10.2.2(jewel),现在使用的是12.2.10(luminous),虽然版本跨度比较大,但是这部分代码还是比较稳定的,基本大的框架没有变化。这里以cephfs的文件读流程进行分析。

2.介绍一个文件的读

这里使用fuse进行挂载cephfs,因为用户态的客户端才会调用OSDC,如果使用内核态的客户端的话,是不会经过OSDC代码的,会走内核的一个osd client代码,估计功能跟OSDC类似,不过内核的osd client的缓存是使用的内核中的一些缓存机制。

2.1 用户态文件请求

用户态文件请求的流程大致如下:

  • (1)posix标准:open、read、write
  • (2)系统调用
  • (3)vfs虚拟机文件系统
  • (4)fuse内核模块
  • (5)fuse的用户态库
  • (6)cephfs的用户态客户端代码
  • (7)最终到达client::read()或者client::write()处理函数

2.2 client::read()

从client::read()起的流程图如下

其中file_to_extents函数就是完成OSDC的第一个功能:地址空间的转换

2.3地址空间的转换

先贴一个对象条带分片图,也就是地址空间转换图,如下图所示:

这个对象分片图,是不是有点像raid0,对,就是将raid0中的磁盘换成了对象,并对对象进行了条带分片。

按上图介绍几个概念

(1)蓝色柱状代表一个个rados底层对象,默认为4M (2)绿色的su代表条带单元 (3)红色的stripe代表一个个条带 (4)objectset代表对象组,一般一个对象组属于同一个文件(cephfs)

这里要说明一点,Ceph系统默认没有开启对象条带分片

再介绍几个变量 (1)object_size:对象的大小,就是rados底层对象的大小,一般默认是4M (2)su:对象分片大小,以上面的图为例就是4/3M (3)stripe_count:条带宽度,也就是一个strip跨多少个对象,也就是一个objectset中对象的个数,以上面的图为例,值为3 (4)stripes_per_object:一个对象包含的对象分片数,以上图为例值为3

  • file_to_extent

file_to_extent函数就是以raid0的思想来分片,一个个条带连起来可以看成是逻辑上面连续的,相当于线性的一维地址空间。现在要通过file_to_extent函数把一维坐标转化成三维坐标(objectset,stripeno,stripepos),这三维坐标分别表示哪一个objectset,哪一个条带,条带中的哪一个对象分片。小甲以一个读操作来分析,示例分析如下:

这里假设一个对象大小是3M,一个对象分片大小是1M,假设我们要读的文件占用两个objectset,占用6个rados的对象,18个对象分片,小甲这里要读取这个文件的对象分片的序号是从第1到第6,也就是文件的2M~7M的范围,相应的变量如下所示:

代码语言:javascript
复制
offset = 1M 表示读偏移量
len = 6M 表示要读取的大小
su = 1M
object_size = 3M
stripe_count = 3
stripes_per_object = 3

可以看到上面的地址空间已经从一维转化成了三维:

比如读取su1

一维地址空间:(offset, len) ==>(1M,1M)

三维地址空间:(objectset,stripeno,stripepos) ==> (objectset0,stripe0,object1)

  • 对象名的组成

这里的对象指的是rados底层的对象,也就是使用filestore时,xfs上面一个个4M的小文件,那这个文件的名字是怎么组成的呢,小甲顺便也分析了一下。

这里先说明一个类ObjectExtent,这个是用来保存一个对象内的分片的信息,注意这个类不保存内容,只是保存分片的位置信息:偏移和长度。分片的结果会保存在一个map中

代码语言:javascript
复制
map<object_t,vector<ObjectExtent> >  object_extent

map的key是一个对象的名字,这个名字就是存在磁盘上面每一个对象对应文件的文件名的前缀,比如,磁盘上面一个对象的文件名为:

代码语言:javascript
复制
10000000000.00000000__head_F0B56F30__1

其中10000000000.00000000这个由点号隔成了两部分,点号前面的10000000000是一个文件的元数据inode号,后面00000000是文件内容分配所在的对象号,这个对象号有点特殊代码中叫做objectno,我们来具体讨论一下。

首先每一个文件都是可以分片成对象,按照分片算法,这里分片所对应的对象应该都是从0开始标号的,那这样对象的名字不就重复了吗?不急,我们每一个文件的inode号是一个唯一的这个inode号是由mds中的inodetable维护的,保证唯一,那就可以使用文件的元数据inode号和刚刚可以重复利用的objectno就组成了上面我们看到的由点号分开的对象名前缀,其实这个感觉就像我们的网络,在openstack中我们可以给每一个租户分配一个网络,网络里面可以自己划分子网,不同租户的子网的网段是可以重复的,因为他们就相当于一个局域网,可以重复利用,这里面的objectno就相当于局域网段,可以重复利用,但是和inode号合在一起就是一个全局唯一的,就是存储在磁盘上面的前缀。

未完待续······

· END ·

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云TStack 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档