
•
1.1 底层系统的现实:API、网络、硬件只认整数
•
1.2 一个 ID 需要承载多段信息(池ID + 卷ID / 节点ID + 设备ID)
•
1.3 设计目标:用结构体赋值,用整数传输
•
2.1 语法基础:变量名 : 位数 的含义
•
2.2 联合体的“双重视图”:whole 与 part 共享同一块内存
•
2.3 核心优势:零移位、零掩码,代码即文档
•
3.1 内存对齐——不同平台填充规则不一样
•
3.2 位域顺序——C 标准不规定位域的排列方向
•
3.3 字节序——大小端导致字段完全错位
•
3.4 数据类型长度——int 在不同平台宽度不同
•
4.1 长度固定、布局固定、无填充
•
4.2 所有平台、硬件、网络都识别纯数字
•
4.3 可用 htonl/ntohl 统一解决字节序问题
•
5.1 太重:框架代码体积过大
•
5.2 太慢:需要函数调用和内存拷贝
•
5.3 没必要:ID 只是固定宽度的整数
•
6.1 Linux 内核:e1000 网卡控制寄存器(硬件寄存器映射)
•
6.2 NVMe 驱动:命名空间 ID 位压缩
•
6.3 Ceph:64 位对象 ID 打包
•
6.4 MySQL/InnoDB:行 ID 设计
•
6.5 共性总结:一种统治底层系统的设计铁律
•
7.1 位域位置锁定
•
7.2 逐行执行代码,跟踪每一位的变化
•
7.3 得出最终的 32 位十六进制数值
•
7.4 与手动移位运算对比,验证零成本抽象
开始
Linux 内核、Ceph、LVM、GlusterFS、MySQL 全是这套逻辑
联合体 + 位域 压缩 ID,是存储系统的标准设计
1
底层 API、网络、硬件、磁盘**只识别完整整数,不识别结构体,
2
结构体无法跨平台传输。
3
一个 ID 需要包含多段信息(池 ID + 卷 ID、设备 ID + 节点 ID)
C 语言的结构体没有统一的内存布局标准,换一个 CPU、换一个编译器,结构体在内存里的排列就全变了。
1
最大坑:内存对齐(填充空洞)
编译器会自动给结构体塞空白字节,让内存对齐,不同平台填充规则不一样:
typedef union {
uint64_t row_id;
struct {
uint64_t space_id : 10; // 表空间ID
uint64_t resv : 2; // 保留=0
uint64_t offs : 52; // 行偏移ID
} bits;
} innodb_row_id_t;
你在x86上把这个结构体发出去,ARM设备收到后,因为长度不一样,解析出来的池ID、卷ID全是错的。
1
位域顺序无标准
C 语言没有规定位域的排列顺序:
•
x86:从低位往高位排
•
某些ARM/服务器CPU:从高位往低位排(eVolId 跑到最高位)
你发的结构体,对方解析时保留位、池ID、卷ID全部错位,直接判定ID非法。
1
字节序(大小端)混乱
•
小端CPU(x86):低字节存前面
•
大端CPU(网络/硬件):高字节存前面
结构体里的多个字段,无法统一转换字节序;
而纯整数可以用 htonl 一行转换,全网通用。
•
老平台:int 是 16位
•
新平台:int 是 32位
•
64位系统:指针长度变了
结构体字段长度一变,整个布局彻底崩溃。
// 你代码里的这个整数,全世界都认!
uint32_t whole;
1
长度固定:32位整数 = 永远4字节,64位整数 = 永远8字节
2
布局固定:就是一串连续的二进制,没有填充、没有乱序
3
兼容所有平台:CPU、硬件、网络、存储设备,只认识纯数字
4
可统一转换:用 htonl / ntohl 就能适配所有字节序
联合体+位域
本质就是为了:用结构体方便赋值,用整数跨平台传输
这就是 Linux 内核、Ceph、所有存储系统 的通用设计铁律!
你可能听过 Protobuf、FlatBuffers 这些序列化框架,但它们绝对不会用在你的场景:
•
太重:框架代码几百 K,底层固件 / 驱动只有几 M 空间
•
太慢:序列化需要函数调用、内存拷贝,而你的方案只需要 1 次赋值
•
没必要:你的 ID 只是固定 32/64 位整数,通用序列化是大炮打蚊子
•
大二你掌握了基本知识
请看一段代码
•
网络驱动中的寄存器定义
代码链接https://github.com/torvalds/linux/blob/master/include/uapi/linux/tcp.h#L120-L140
/* Intel e1000 网卡控制寄存器定义 */
typedef union
{
uint32_t raw; /* 完整32位寄存器值,直接读写硬件 */
struct {
uint32_t fd : 1; /* 全双工模式 */
uint32_t speed : 2; /* 网卡速率设置 */
uint32_t reserved1 : 5; /* 保留位,必须为0 */
uint32_t duplex : 1; /* 双工模式 */
uint32_t reserved2 : 23; /* 保留位,必须为0 */
} fields;
} e1000_ctrl_reg_t;
•
内核存储驱动的 LUN ID、命名空间 ID 全部位压缩
// NVMe 命名空间ID(nvme.h)
typedef union
{
uint32_t nsid;
struct {
uint32_t ctrl_id : 8;
uint32_t reserved: 4;
uint32_t ns_id : 20;
} bits;
} nvme_ns_t;
// InnoDB 行ID设计(row0row.h)
typedef union {
uint64_t row_id;
struct {
uint64_t space_id : 10; // 表空间ID
uint64_t resv : 2; // 保留=0
uint64_t offs : 52; // 行偏移ID
} bits;
} innodb_row_id_t;
/ Ceph的格式(64位,和你完全一个逻辑)
typedef union {
uint64_t val; // 完整64位整数
struct {
uint64_t pool:6; // 池ID
uint64_t prealloc:2; // 保留位
uint64_t oid:56; // 对象ID
} bits;
} ceph_object_id_t;
C 语言位域(Bit-field) 专用语法,也是嵌入式 / 硬件驱动开发的核心知识点
变量名 : 位数 → 指定这个成员只占用【指定个数的二进制位 (bit)】
•
: 1 = 占用 1 个 bit
•
: 2 = 占用 2 个 bit
•
: 23 = 占用 23 个 bit
核心优势: 彻底抛弃移位掩码,用变量名直接操作硬件,简单、易懂、零错误
// 定义(你之前的代码,内核标准写法)
typedef union {
uint32_t raw;
struct {
uint32_t fd : 1;
uint32_t speed : 2;
uint32_t reserved1 : 5;
uint32_t duplex : 1;
uint32_t reserved2 : 23;
} fields;
} e1000_ctrl_reg_t;
// 硬件寄存器指针
e1000_ctrl_reg_t *ctrl = (e1000_ctrl_reg_t *)REG_CTRL_ADDR;
// ============ 核心操作:零移位、零掩码!============
ctrl->raw = 0; // 清空所有位(保留位自动为0)
ctrl->fields.fd = 1; // 直接写:开启全双工
ctrl->fields.speed = 2; // 直接写:设置1G速率
ctrl->fields.duplex = 1; // 直接写:开启双工
按照从低位向高位的顺序分配
ctrl.fields.fd = 1;
ctrl.fields.speed = 2;
ctrl.fields.duplex = 1;
和你手算的移位代码:
uint32_t reg = (1<<0) | (2<<1) | (1<<8);
在编译后生成的机器码完全相同。
寄存器位 |31 ... 9 | 8 | 7 ... 3 | 2 1 | 0
字段名 |reserved2 | duplex |reserved1| speed | fd
宽度 | 23 bits | 1 bit | 5 bits | 2 bits | 1 bit
设定值 | 全0 | 1 | 全0 | 1 0 | 1
二进制位值 | 0 | 1 | 00000 | 1 0 | 1
思考:为什么这样设计 表示最大范围: 等比数列 公式
假设我们只有 2 位 无符号整数,那么所有可能的组合是:
二进制 | 十进制 |
|---|---|
00 | 0 |
01 | 1 |
10 | 2 |
11 | 3 |
最大值是 3,而 (2^2 = 4),所以最大值 = 4 - 1 = 3。
再比如 3 位:
二进制 | 十进制 |
|---|---|
000 | 0 |
001 | 1 |
010 | 2 |
011 | 3 |
100 | 4 |
101 | 5 |
110 | 6 |
111 | 7 |
最大值是 7,而 (2^3 = 8),所以最大值 = 8 - 1 = 7。
对于一个 N 位无符号二进制数:
•
最低位是 (20),最高位是 (2{N-1})。
•
当所有位都是 1 时,总和为
•
这是一个等比数列求和:
和
或者换一种直观的方法:
•
(2^N) 对应的二进制是 1 后面跟着 N 个 0,例如 (2^3 = 1000_2)。
•
从这个数里减去 1,结果就是 N 个 1。
•
而 N 个 1 正是 N 位能表示的最大无符号数。
因此,N 位无符号整数的最大值永远是 (2^N - 1)。