联合体+位域：一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

早起的鸟儿有虫吃

发布于 2026-05-15 10:41:42

370

一、为什么需要把多段信息压缩进一个整数？

•

1.1 底层系统的现实：API、网络、硬件只认整数

•

1.2 一个 ID 需要承载多段信息（池ID + 卷ID / 节点ID + 设备ID）

•

1.3 设计目标：用结构体赋值，用整数传输

二、核心工具：联合体 + 位域

•

2.1 语法基础：变量名 : 位数 的含义

•

2.2 联合体的“双重视图”：whole 与 part 共享同一块内存

•

2.3 核心优势：零移位、零掩码，代码即文档

三、为什么结构体不能跨平台传输？（四个底层原因）

•

3.1 内存对齐——不同平台填充规则不一样

•

3.2 位域顺序——C 标准不规定位域的排列方向

•

3.3 字节序——大小端导致字段完全错位

•

3.4 数据类型长度——int 在不同平台宽度不同

四、为什么纯整数可以跨平台？

•

4.1 长度固定、布局固定、无填充

•

4.2 所有平台、硬件、网络都识别纯数字

•

4.3 可用 htonl/ntohl 统一解决字节序问题

五、为什么底层系统不用 Protobuf 等通用序列化框架？

•

5.1 太重：框架代码体积过大

•

5.2 太慢：需要函数调用和内存拷贝

•

5.3 没必要：ID 只是固定宽度的整数

六、业界实例：Linux 内核 / 存储系统 / 数据库的通用做法

•

6.1 Linux 内核：e1000 网卡控制寄存器（硬件寄存器映射）

•

6.2 NVMe 驱动：命名空间 ID 位压缩

•

6.3 Ceph：64 位对象 ID 打包

•

6.4 MySQL/InnoDB：行 ID 设计

•

6.5 共性总结：一种统治底层系统的设计铁律

七、动手验证：从 C 代码到硬件寄存器值的完整推导

•

7.1 位域位置锁定

•

7.2 逐行执行代码，跟踪每一位的变化

•

7.3 得出最终的 32 位十六进制数值

•

7.4 与手动移位运算对比，验证零成本抽象

开始

1. 系统设计：ID 设计方案把多段信息压缩进一个整数

Linux 内核、Ceph、LVM、GlusterFS、MySQL 全是这套逻辑

联合体 + 位域压缩 ID，是存储系统的标准设计

底层 API、网络、硬件、磁盘**只识别完整整数，不识别结构体，

结构体无法跨平台传输。

一个 ID 需要包含多段信息（池 ID + 卷 ID、设备 ID + 节点 ID）

疑问：为什么结构体不能跨平台传输？（4个底层原因）

C 语言的结构体没有统一的内存布局标准，换一个 CPU、换一个编译器，结构体在内存里的排列就全变了。

最大坑：内存对齐（填充空洞）

编译器会自动给结构体塞空白字节，让内存对齐，不同平台填充规则不一样：


typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

你在x86上把这个结构体发出去，ARM设备收到后，因为长度不一样，解析出来的池ID、卷ID全是错的。

位域顺序无标准

C 语言没有规定位域的排列顺序：

•

x86：从低位往高位排

•

某些ARM/服务器CPU：从高位往低位排（eVolId 跑到最高位）

你发的结构体，对方解析时保留位、池ID、卷ID全部错位，直接判定ID非法。

字节序（大小端）混乱

•

小端CPU（x86）：低字节存前面

•

大端CPU（网络/硬件）：高字节存前面

结构体里的多个字段，无法统一转换字节序；

而纯整数可以用 htonl 一行转换，全网通用。

4. 数据类型长度不统一

•

老平台：int 是 16位

•

新平台：int 是 32位

•

64位系统：指针长度变了

结构体字段长度一变，整个布局彻底崩溃。

疑问2：对比：为什么「纯整数」可以跨平台？

// 你代码里的这个整数，全世界都认！
uint32_t whole;

长度固定：32位整数 = 永远4字节，64位整数 = 永远8字节

布局固定：就是一串连续的二进制，没有填充、没有乱序

兼容所有平台：CPU、硬件、网络、存储设备，只认识纯数字

可统一转换：用 htonl / ntohl 就能适配所有字节序

联合体+位域 本质就是为了：用结构体方便赋值，用整数跨平台传输

这就是 Linux 内核、Ceph、所有存储系统 的通用设计铁律！

疑问3：底层系统（存储 / 内核 / 硬件）为什么不用 Protobuf 等通用序列化？

你可能听过 Protobuf、FlatBuffers 这些序列化框架，但它们绝对不会用在你的场景：

•

太重：框架代码几百 K，底层固件 / 驱动只有几 M 空间

•

太慢：序列化需要函数调用、内存拷贝，而你的方案只需要 1 次赋值

•

没必要：你的 ID 只是固定 32/64 位整数，通用序列化是大炮打蚊子

练习题：

•

大二你掌握了基本知识

请看一段代码

Linux 内核（所有底层 ID 的鼻祖）

•

网络驱动中的寄存器定义

代码链接https://github.com/torvalds/linux/blob/master/include/uapi/linux/tcp.h#L120-L140

/* Intel e1000 网卡控制寄存器定义 */
typedef union
{
   uint32_t raw; /* 完整32位寄存器值，直接读写硬件 */
	struct {
		uint32_t fd : 1; /* 全双工模式 */

		uint32_t speed : 2; /* 网卡速率设置 */

		uint32_t reserved1 : 5; /* 保留位，必须为0 */

		uint32_t duplex : 1; /* 双工模式 */

		uint32_t reserved2 : 23; /* 保留位，必须为0 */

	} fields;

} e1000_ctrl_reg_t;

•

内核存储驱动的 LUN ID、命名空间 ID 全部位压缩

// NVMe 命名空间ID（nvme.h）
typedef union
{
	uint32_t nsid;
	struct {
	uint32_t ctrl_id : 8;
	uint32_t reserved: 4;
	uint32_t ns_id : 20;
	} bits;
} nvme_ns_t;

数据库内核

// InnoDB 行ID设计（row0row.h）
typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

存储系统

/ Ceph的格式（64位，和你完全一个逻辑）
typedef union {
	uint64_t val; // 完整64位整数
	struct {
		uint64_t pool:6; // 池ID
		uint64_t prealloc:2; // 保留位
		uint64_t oid:56; // 对象ID
	} bits;
} ceph_object_id_t;

C 语言位域（Bit-field） 专用语法，也是嵌入式 / 硬件驱动开发的核心知识点 变量名 : 位数 → 指定这个成员只占用【指定个数的二进制位 (bit)】

•

: 1 = 占用 1 个 bit

•

: 2 = 占用 2 个 bit

•

: 23 = 占用 23 个 bit

核心优势： 彻底抛弃移位掩码，用变量名直接操作硬件，简单、易懂、零错误

// 定义（你之前的代码，内核标准写法）

typedef union {

uint32_t raw;

struct {

uint32_t fd : 1;

uint32_t speed : 2;

uint32_t reserved1 : 5;

uint32_t duplex : 1;

uint32_t reserved2 : 23;

} fields;

} e1000_ctrl_reg_t;

// 硬件寄存器指针

e1000_ctrl_reg_t *ctrl = (e1000_ctrl_reg_t *)REG_CTRL_ADDR;

// ============ 核心操作：零移位、零掩码！============

ctrl->raw = 0; // 清空所有位（保留位自动为0）

ctrl->fields.fd = 1; // 直接写：开启全双工

ctrl->fields.speed = 2; // 直接写：设置1G速率

ctrl->fields.duplex = 1; // 直接写：开启双工

按照从低位向高位的顺序分配

ctrl.fields.fd = 1;
ctrl.fields.speed = 2;
ctrl.fields.duplex = 1;

和你手算的移位代码：

uint32_t reg = (1<<0) | (2<<1) | (1<<8);

在编译后生成的机器码完全相同。

寄存器位    |31 ... 9 | 8      | 7 ... 3 | 2    1 | 0
字段名     |reserved2 | duplex |reserved1| speed  | fd
宽度       | 23 bits | 1 bit  | 5 bits  | 2 bits | 1 bit
设定值     | 全0      | 1      | 全0      | 1  0   | 1
二进制位值  | 0        | 1      | 00000    | 1  0   | 1

思考：为什么这样设计表示最大范围：等比数列公式

1. 先看一个具体的小例子，建立感觉

假设我们只有 2 位 无符号整数，那么所有可能的组合是：

二进制	十进制
00	0
01	1
10	2
11	3

最大值是 3，而 (2^2 = 4)，所以最大值 = 4 - 1 = 3。

再比如 3 位：

二进制	十进制
000	0
001	1
010	2
011	3
100	4
101	5
110	6
111	7

最大值是 7，而 (2^3 = 8)，所以最大值 = 8 - 1 = 7。

2. 规律抽象化

对于一个 N 位无符号二进制数：

•

最低位是 (20)，最高位是 (2{N-1})。

•

当所有位都是 1 时，总和为

•

这是一个等比数列求和：

和

或者换一种直观的方法：

•

(2^N) 对应的二进制是 1 后面跟着 N 个 0，例如 (2^3 = 1000_2)。

•

从这个数里减去 1，结果就是 N 个 1。

•

而 N 个 1 正是 N 位能表示的最大无符号数。

因此，N 位无符号整数的最大值永远是 (2^N - 1)。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-08，如有侵权请联系 cloudcommunity@tencent.com 删除

linux

本文分享自后端开发成长指南微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度