首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

作者头像
早起的鸟儿有虫吃
发布2026-05-15 10:41:42
发布2026-05-15 10:41:42
370
举报
一、为什么需要把多段信息压缩进一个整数?

1.1 底层系统的现实:API、网络、硬件只认整数

1.2 一个 ID 需要承载多段信息(池ID + 卷ID / 节点ID + 设备ID)

1.3 设计目标:用结构体赋值,用整数传输

二、核心工具:联合体 + 位域

2.1 语法基础:变量名 : 位数 的含义

2.2 联合体的“双重视图”:wholepart 共享同一块内存

2.3 核心优势:零移位、零掩码,代码即文档

三、为什么结构体不能跨平台传输?(四个底层原因)

3.1 内存对齐——不同平台填充规则不一样

3.2 位域顺序——C 标准不规定位域的排列方向

3.3 字节序——大小端导致字段完全错位

3.4 数据类型长度——int 在不同平台宽度不同

四、为什么纯整数可以跨平台?

4.1 长度固定、布局固定、无填充

4.2 所有平台、硬件、网络都识别纯数字

4.3 可用 htonl/ntohl 统一解决字节序问题

五、为什么底层系统不用 Protobuf 等通用序列化框架?

5.1 太重:框架代码体积过大

5.2 太慢:需要函数调用和内存拷贝

5.3 没必要:ID 只是固定宽度的整数

六、业界实例:Linux 内核 / 存储系统 / 数据库的通用做法

6.1 Linux 内核:e1000 网卡控制寄存器(硬件寄存器映射)

6.2 NVMe 驱动:命名空间 ID 位压缩

6.3 Ceph:64 位对象 ID 打包

6.4 MySQL/InnoDB:行 ID 设计

6.5 共性总结:一种统治底层系统的设计铁律

七、动手验证:从 C 代码到硬件寄存器值的完整推导

7.1 位域位置锁定

7.2 逐行执行代码,跟踪每一位的变化

7.3 得出最终的 32 位十六进制数值

7.4 与手动移位运算对比,验证零成本抽象

开始

1. 系统设计:ID 设计方案 把多段信息压缩进一个整数

Linux 内核、Ceph、LVM、GlusterFS、MySQL 全是这套逻辑

联合体 + 位域 压缩 ID,是存储系统的标准设计

1

底层 API、网络、硬件、磁盘**只识别完整整数,不识别结构体,

2

结构体无法跨平台传输。

3

一个 ID 需要包含多段信息(池 ID + 卷 ID、设备 ID + 节点 ID)

疑问: 为什么结构体不能跨平台传输?(4个底层原因)

C 语言的结构体没有统一的内存布局标准,换一个 CPU、换一个编译器,结构体在内存里的排列就全变了。

1

最大坑:内存对齐(填充空洞)

编译器会自动给结构体塞空白字节,让内存对齐,不同平台填充规则不一样:

代码语言:javascript
复制

typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

你在x86上把这个结构体发出去,ARM设备收到后,因为长度不一样,解析出来的池ID、卷ID全是错的

1

位域顺序无标准

C 语言没有规定位域的排列顺序

x86:从低位往高位排

某些ARM/服务器CPU:从高位往低位排(eVolId 跑到最高位)

你发的结构体,对方解析时保留位、池ID、卷ID全部错位,直接判定ID非法。

1

字节序(大小端)混乱

小端CPU(x86):低字节存前面

大端CPU(网络/硬件):高字节存前面

结构体里的多个字段,无法统一转换字节序

而纯整数可以用 htonl 一行转换,全网通用。

4. 数据类型长度不统一

老平台:int 是 16位

新平台:int 是 32位

64位系统:指针长度变了

结构体字段长度一变,整个布局彻底崩溃

疑问2: 对比:为什么「纯整数」可以跨平台?

代码语言:javascript
复制
// 你代码里的这个整数,全世界都认!
uint32_t whole;

1

长度固定:32位整数 = 永远4字节,64位整数 = 永远8字节

2

布局固定:就是一串连续的二进制,没有填充、没有乱序

3

兼容所有平台:CPU、硬件、网络、存储设备,只认识纯数字

4

可统一转换:用 htonl / ntohl 就能适配所有字节序

联合体+位域 本质就是为了:用结构体方便赋值,用整数跨平台传输

这就是 Linux 内核、Ceph、所有存储系统 的通用设计铁律!

疑问3:底层系统(存储 / 内核 / 硬件)为什么不用 Protobuf 等通用序列化?

你可能听过 Protobuf、FlatBuffers 这些序列化框架,但它们绝对不会用在你的场景:

太重:框架代码几百 K,底层固件 / 驱动只有几 M 空间

太慢:序列化需要函数调用、内存拷贝,而你的方案只需要 1 次赋值

没必要:你的 ID 只是固定 32/64 位整数,通用序列化是大炮打蚊子

练习题:

大二你掌握了基本知识

请看一段代码

Linux 内核(所有底层 ID 的鼻祖)

网络驱动中的寄存器定义

代码语言:javascript
复制
代码链接https://github.com/torvalds/linux/blob/master/include/uapi/linux/tcp.h#L120-L140

/* Intel e1000 网卡控制寄存器定义 */
typedef union
{
   uint32_t raw; /* 完整32位寄存器值,直接读写硬件 */
	struct {
		uint32_t fd : 1; /* 全双工模式 */

		uint32_t speed : 2; /* 网卡速率设置 */

		uint32_t reserved1 : 5; /* 保留位,必须为0 */

		uint32_t duplex : 1; /* 双工模式 */

		uint32_t reserved2 : 23; /* 保留位,必须为0 */

	} fields;

} e1000_ctrl_reg_t;

内核存储驱动的 LUN ID、命名空间 ID 全部位压缩

代码语言:javascript
复制
// NVMe 命名空间ID(nvme.h)
typedef union
{
	uint32_t nsid;
	struct {
	uint32_t ctrl_id : 8;
	uint32_t reserved: 4;
	uint32_t ns_id : 20;
	} bits;
} nvme_ns_t;

数据库内核

代码语言:javascript
复制
// InnoDB 行ID设计(row0row.h)
typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

存储系统

代码语言:javascript
复制
/ Ceph的格式(64位,和你完全一个逻辑)
typedef union {
	uint64_t val; // 完整64位整数
	struct {
		uint64_t pool:6; // 池ID
		uint64_t prealloc:2; // 保留位
		uint64_t oid:56; // 对象ID
	} bits;
} ceph_object_id_t;

C 语言位域(Bit-field) 专用语法,也是嵌入式 / 硬件驱动开发的核心知识点 变量名 : 位数指定这个成员只占用【指定个数的二进制位 (bit)】

: 1 = 占用 1 个 bit

: 2 = 占用 2 个 bit

: 23 = 占用 23 个 bit

核心优势彻底抛弃移位掩码,用变量名直接操作硬件,简单、易懂、零错误

代码语言:javascript
复制
// 定义(你之前的代码,内核标准写法)

typedef union {

uint32_t raw;

struct {

uint32_t fd : 1;

uint32_t speed : 2;

uint32_t reserved1 : 5;

uint32_t duplex : 1;

uint32_t reserved2 : 23;

} fields;

} e1000_ctrl_reg_t;

// 硬件寄存器指针

e1000_ctrl_reg_t *ctrl = (e1000_ctrl_reg_t *)REG_CTRL_ADDR;

// ============ 核心操作:零移位、零掩码!============

ctrl->raw = 0; // 清空所有位(保留位自动为0)

ctrl->fields.fd = 1; // 直接写:开启全双工

ctrl->fields.speed = 2; // 直接写:设置1G速率

ctrl->fields.duplex = 1; // 直接写:开启双工

按照从低位向高位的顺序分配

代码语言:javascript
复制
ctrl.fields.fd = 1;
ctrl.fields.speed = 2;
ctrl.fields.duplex = 1;

和你手算的移位代码:

代码语言:javascript
复制
uint32_t reg = (1<<0) | (2<<1) | (1<<8);

在编译后生成的机器码完全相同

代码语言:javascript
复制
寄存器位    |31 ... 9 | 8      | 7 ... 3 | 2    1 | 0
字段名     |reserved2 | duplex |reserved1| speed  | fd
宽度       | 23 bits | 1 bit  | 5 bits  | 2 bits | 1 bit
设定值     | 全0      | 1      | 全0      | 1  0   | 1
二进制位值  | 0        | 1      | 00000    | 1  0   | 1

思考:为什么这样设计 表示最大范围: 等比数列 公式

1. 先看一个具体的小例子,建立感觉

假设我们只有 2 位 无符号整数,那么所有可能的组合是:

二进制

十进制

00

0

01

1

10

2

11

3

最大值是 3,而 (2^2 = 4),所以最大值 = 4 - 1 = 3

再比如 3 位

二进制

十进制

000

0

001

1

010

2

011

3

100

4

101

5

110

6

111

7

最大值是 7,而 (2^3 = 8),所以最大值 = 8 - 1 = 7

2. 规律抽象化

对于一个 N 位无符号二进制数:

最低位是 (20),最高位是 (2{N-1})。

当所有位都是 1 时,总和为

这是一个等比数列求和:

或者换一种直观的方法:

(2^N) 对应的二进制是 1 后面跟着 N 个 0,例如 (2^3 = 1000_2)。

从这个数里减去 1,结果就是 N 个 1

而 N 个 1 正是 N 位能表示的最大无符号数。

因此,N 位无符号整数的最大值永远是 (2^N - 1)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 后端开发成长指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、为什么需要把多段信息压缩进一个整数?
  • 二、核心工具:联合体 + 位域
  • 三、为什么结构体不能跨平台传输?(四个底层原因)
  • 四、为什么纯整数可以跨平台?
  • 五、为什么底层系统不用 Protobuf 等通用序列化框架?
  • 六、业界实例:Linux 内核 / 存储系统 / 数据库的通用做法
  • 七、动手验证:从 C 代码到硬件寄存器值的完整推导
  • 1. 系统设计:ID 设计方案 把多段信息压缩进一个整数
    • 疑问: 为什么结构体不能跨平台传输?(4个底层原因)
  • 4. 数据类型长度不统一
    • 疑问2: 对比:为什么「纯整数」可以跨平台?
    • 疑问3:底层系统(存储 / 内核 / 硬件)为什么不用 Protobuf 等通用序列化?
  • 练习题:
    • Linux 内核(所有底层 ID 的鼻祖)
    • 数据库内核
    • 存储系统
    • 1. 先看一个具体的小例子,建立感觉
    • 2. 规律抽象化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档