apue 最后两章都是通过一个完整的实例来解释一些 linux 功能,第20章就是通过一个数据库实例来解释文件锁的使用,
说实话,当时没兴趣,因为满页都是源码和解析,有点看不下去。但是再拾起来硬着头皮看的时候,发现这哪里是个小 demo,明明是个五脏俱全的 key-value 数据库嘛,
而且这个数据库,提供多进程并发读写的安全性保证(通过文件锁)、提供已删除节点循环再利用的能力、提供根据用户需求调节内部 hash 表参数的能力……
特别是它的索引与数据文件格式,采用字符串存储各种偏移量与数字,非常便于直接打开文件去做一些 “观察”,然后也能很方便地基于 SDK 构建查找、增删改数据库的工具……
这简直就是一个 linux 上的 “注册表” 工具!
先来看看这个数据库提供的 SDK 接口:
1 #ifndef __APUE_DB_H__
2 #define __APUE_DB_H__
3
4 typedef void* DBHANDLE;
5
6 // db_store flags
7 #define DB_INSERT 1
8 #define DB_REPLACE 2
9 #define DB_STORE 3
10
11 #define IDXLEN_MIN 6
12 #define IDXLEN_MAX 1024 // single index can not exceed this size
13 #define DATLEN_MIN 2
14 #define DATLEN_MAX 1024 // single data can not exceed this size
15 #define NHASH_DEF 137 // default hash table size
16
17 DBHANDLE db_open (char const* pathname, int oflag, .../*mode*/);
18 void db_close (DBHANDLE db);
19 int db_store (DBHANDLE db, const char *key, const char *data, int flag);
20 char* db_fetch (DBHANDLE db, char *key);
21 int db_delete (DBHANDLE db, const char *key);
22 void db_rewind (DBHANDLE db);
23 char *db_nextrec (DBHANDLE db, char *key);
24 void db_dump (DBHANDLE db);
25
26 #endif
通过 db_open/db_close 打开关闭数据库,拿到DBHANDLE后就可以基于这个做操作了:
实现比较长,就不贴了,只给一个链接:apue_db.c
依据书中代码,纯手工输入,同时加入了习题中可以指定索引哈希表大小的能力
(编译时指定 HAS_HASHSIZE 宏,运行时通过环境变量 APUE_DB_HASH_SIZE 指定具体的哈希值,当然这个只在创建数据库时起作用,如果数据库已经存在,
将直接使用数据库中记录的哈希表大小值,如果没有环境变量,使用 NHASH_DEF 作为默认的哈希表尺寸,PS:尽量使用质数来保证哈希效果)
有了SDK,搞个数据库小工具就是小菜一碟了:
1 #include "../apue.h"
2 #include "apue_db.h"
3 #include <fcntl.h>
4 #include <strings.h>
5 #include <errno.h>
6
7 void Usage ()
8 {
9 printf ("Usage: db filename insert key data\n");
10 printf (" db filename query key\n");
11 printf (" db filename delete key\n");
12 printf (" db filename walk\n");
13 printf (" db filename dump\n");
14 exit (-1);
15 }
16
17 int main (int argc, char *argv[])
18 {
19 if (argc < 3)
20 Usage ();
21
22 char *filename = argv[1];
23 char *action = argv[2];
24 char *key = NULL;
25 char *data = NULL;
26 if (strcasecmp (action, "walk") == 0
27 || strcasecmp (action, "dump") == 0)
28 {
29 // no extra param
30 }
31 else if (strcasecmp (action, "delete") == 0
32 || strcasecmp (action, "query") == 0)
33 {
34 if (argc < 4)
35 Usage ();
36
37 key = argv[3];
38 }
39 else if (strcasecmp (action, "insert") == 0)
40 {
41 if (argc < 5)
42 Usage ();
43
44 key = argv[3];
45 data = argv[4];
46 }
47 else
48 {
49 Usage ();
50 }
51
52 DBHANDLE db;
53 char *ptr = NULL;
54 #ifdef HAS_HASHSIZE
55 int hashsize = 0;
56 ptr = getenv ("APUE_DB_HASH_SIZE");
57 if (ptr)
58 hashsize = atoi (ptr);
59
60 if (hashsize <= 0)
61 hashsize = NHASH_DEF;
62
63 if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE, hashsize)) == NULL)
64 #else
65 if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE)) == NULL)
66 #endif
67 err_sys ("db_open error");
68
69 int ret = 0;
70 if (strcasecmp (action, "dump") == 0)
71 {
72 db_dump (db);
73 }
74 else if (strcasecmp (action, "walk") == 0)
75 {
76 //db_rewind ();
77 int n = 0;
78 char buf[IDXLEN_MAX] = { 0 };
79 while ((ptr = db_nextrec(db, buf)) != NULL)
80 {
81 n ++;
82 printf ("[%5d] %s --- %s\n", n, buf, ptr);
83 }
84
85 printf ("walk done!\n");
86 }
87 else if (strcasecmp (action, "insert") == 0)
88 {
89 ret = db_store (db, key, data, DB_STORE);
90 if (ret < 0)
91 fprintf (stderr, "insert %s.%s failed, errno %d\n", key, data, errno);
92 else if (ret == 1)
93 fprintf (stderr, "insert %s.%s cover old data\n", key, data);
94 else
95 printf ("db %s '%s' code %d\n", action, key, ret);
96 }
97 else if (strcasecmp (action, "delete") == 0)
98 {
99 ret = db_delete (db, key);
100 if (ret < 0)
101 fprintf (stderr, "delete %s failed, errno %d\n", key, errno);
102 else
103 printf ("db %s '%s' code %d\n", action, key, ret);
104 }
105 else if (strcasecmp (action, "query") == 0)
106 {
107 ptr = db_fetch (db, key);
108 //printf ("%s === %s\n", key, ptr);
109 // only print data to allow assigned in shell script
110 printf ("%s\n", ptr == NULL ? "nil" : ptr);
111 }
112 else
113 Usage ();
114
115 db_close (db);
116 return ret;
117 }
如果给定的参数不合法,会弹出 usage:
Usage: db filename insert key data
db filename query key
db filename delete key
db filename walk
db filename dump
其中:
好了,有了这个工具,我们就可以用脚本来开展测试工作了,为了验证这个数据库是“靠谱”的,我主要测试的是多进程并行写入、删除的能力。
在开始搞事情之前,我需要先准备一些测试数据,这个由一个awk脚本来完成:
1 #! /bin/awk -f
2 BEGIN {
3 WORDNUM = 10
4 for (i = 1; i <= WORDNUM; i++) {
5 printf("%s %s\n", randword(randint(20)), randword(randint(150)))
6 }
7 }
8
9 # randint(n): return a random integer number which is >= 1 and <= n
10 function randint(n) {
11 return int(n *rand()) + 1
12 }
13
14 # randlet(): return a random letter, which maybe upper, lower or number.
15 function randlet() {
16 return substr("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", randint(62), 1)
17 }
18
19 # randword(LEN): return a rand word with a length of LEN
20 function randword(LEN) {
21 randw=""
22 for( j = 1; j <= LEN; j++) {
23 randw=randw randlet()
24 }
25 return randw
26 }
执行这个脚本,得到测试数据文件:
$./gen.awk > demo
$ cat demo
s0jKl kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV
TmD516yvmt JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq
BOhc40pKXhCbCu8 yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf
Pw1o1fcg6kHIm ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE
GalRFwb YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai
2X staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l
zW4dQI 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7
0Jde UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2
yNSPh9ev0rnu0yU I3XVWF8h7to0
UivjVVXnSN60cre Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
这个文件每行都是一个 "key data",其中 key 为 1-20 长度的随机字符串,data 为 1-150 长度的随机字符串,共10条。
写入数据的测试脚本就可以这样写了:
1 #! /bin/sh
2 OLD_IFS="$IFS"
3 IFS=" "
4 while read line
5 do
6 # echo $line
7 array=($line)
8 key=${array[0]}
9 data=${array[1]}
10 echo "$key -> $data"
11 ./db yunh insert $key $data
12 done <demo
13
14 IFS="$OLD_IFS"
执行这个脚本,结果如下:
$ ./testi.sh
s0jKl -> kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV
db insert 's0jKl' code 0
TmD516yvmt -> JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq
db insert 'TmD516yvmt' code 0
BOhc40pKXhCbCu8 -> yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf
db insert 'BOhc40pKXhCbCu8' code 0
Pw1o1fcg6kHIm -> ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE
db insert 'Pw1o1fcg6kHIm' code 0
GalRFwb -> YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai
db insert 'GalRFwb' code 0
2X -> staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l
db insert '2X' code 0
zW4dQI -> 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7
db insert 'zW4dQI' code 0
0Jde -> UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2
db insert '0Jde' code 0
yNSPh9ev0rnu0yU -> I3XVWF8h7to0
db insert 'yNSPh9ev0rnu0yU' code 0
UivjVVXnSN60cre -> Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
db insert 'UivjVVXnSN60cre' code 0
使用工具进行 walk 的话,可以看到都插入进去了:
$ ./db yunh walk
[ 1] s0jKl --- kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV
[ 2] TmD516yvmt --- JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq
[ 3] BOhc40pKXhCbCu8 --- yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf
[ 4] Pw1o1fcg6kHIm --- ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE
[ 5] GalRFwb --- YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai
[ 6] 2X --- staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l
[ 7] zW4dQI --- 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7
[ 8] 0Jde --- UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2
[ 9] yNSPh9ev0rnu0yU --- I3XVWF8h7to0
[ 10] UivjVVXnSN60cre --- Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
walk done!
可以观察到遍历的顺序其实就是元素的插入顺序。
使用工具进行 dump 的话,还可以看到 hash 表中的元素分配:
$ ./db yunh dump
hash nodes:
hash[0] nodes:
hash[1] nodes:
hash[2] nodes:
hash[3] nodes:
hash[4] nodes:
hash[5] nodes:
hash[6] nodes:
hash[7] nodes:
hash[8] nodes:
hash[9] nodes:
hash[10] nodes:
hash[11] nodes:
hash[12] nodes:
hash[13] nodes:
1 key 10, dat 52: TmD516yvmt
hash[14] nodes:
hash[15] nodes:
hash[16] nodes:
hash[17] nodes:
hash[18] nodes:
hash[19] nodes:
hash[20] nodes:
hash[21] nodes:
hash[22] nodes:
hash[23] nodes:
hash[24] nodes:
hash[25] nodes:
hash[26] nodes:
hash[27] nodes:
hash[28] nodes:
hash[29] nodes:
hash[30] nodes:
hash[31] nodes:
hash[32] nodes:
hash[33] nodes:
hash[34] nodes:
hash[35] nodes:
hash[36] nodes:
hash[37] nodes:
hash[38] nodes:
hash[39] nodes:
hash[40] nodes:
hash[41] nodes:
1 key 15, dat 13: yNSPh9ev0rnu0yU
hash[42] nodes:
hash[43] nodes:
hash[44] nodes:
hash[45] nodes:
hash[46] nodes:
hash[47] nodes:
hash[48] nodes:
hash[49] nodes:
hash[50] nodes:
hash[51] nodes:
1 key 6, dat 151: zW4dQI
hash[52] nodes:
hash[53] nodes:
hash[54] nodes:
hash[55] nodes:
hash[56] nodes:
hash[57] nodes:
hash[58] nodes:
hash[59] nodes:
hash[60] nodes:
hash[61] nodes:
1 key 15, dat 59: UivjVVXnSN60cre
hash[62] nodes:
hash[63] nodes:
hash[64] nodes:
1 key 7, dat 79: GalRFwb
hash[65] nodes:
hash[66] nodes:
hash[67] nodes:
hash[68] nodes:
hash[69] nodes:
hash[70] nodes:
hash[71] nodes:
hash[72] nodes:
hash[73] nodes:
hash[74] nodes:
hash[75] nodes:
hash[76] nodes:
hash[77] nodes:
hash[78] nodes:
1 key 4, dat 104: 0Jde
hash[79] nodes:
hash[80] nodes:
hash[81] nodes:
hash[82] nodes:
hash[83] nodes:
hash[84] nodes:
hash[85] nodes:
hash[86] nodes:
hash[87] nodes:
hash[88] nodes:
hash[89] nodes:
1 key 2, dat 110: 2X
hash[90] nodes:
hash[91] nodes:
hash[92] nodes:
hash[93] nodes:
hash[94] nodes:
1 key 15, dat 76: BOhc40pKXhCbCu8
hash[95] nodes:
hash[96] nodes:
hash[97] nodes:
hash[98] nodes:
hash[99] nodes:
hash[100] nodes:
hash[101] nodes:
hash[102] nodes:
hash[103] nodes:
hash[104] nodes:
hash[105] nodes:
hash[106] nodes:
hash[107] nodes:
hash[108] nodes:
hash[109] nodes:
hash[110] nodes:
hash[111] nodes:
hash[112] nodes:
hash[113] nodes:
hash[114] nodes:
hash[115] nodes:
1 key 13, dat 64: Pw1o1fcg6kHIm
hash[116] nodes:
hash[117] nodes:
hash[118] nodes:
hash[119] nodes:
hash[120] nodes:
hash[121] nodes:
hash[122] nodes:
hash[123] nodes:
hash[124] nodes:
hash[125] nodes:
hash[126] nodes:
hash[127] nodes:
hash[128] nodes:
hash[129] nodes:
hash[130] nodes:
hash[131] nodes:
hash[132] nodes:
hash[133] nodes:
hash[134] nodes:
hash[135] nodes:
hash[136] nodes:
1 key 5, dat 123: s0jKl
free nodes:
total free: 0
可以看到默认的137个 hash 槽足够散列这10条记录,所以基本上一个 hash 槽最多只有一条记录,如果记录多的话,才有可能看到索引记录在 hash 槽中串成队列的情形。
另外,这里因为没有删除记录,也没有发生插入同名 key 的情况(此种场景也会删除记录),所以 freelist 没有任何元素。
如果有兴趣的话,其实也可以打开数据库的索引与数据文件,一探究竟:
$ cat yunh.idx
0 137 0 0 0 0 0 0 0 0 0 0 0 0 0 857
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1043 0 0 0 0 0
0 0 0 0 995 0 0 0 0 0 0 0 0 0 1076 0
0 949 0 0 0 0 0 0 0 0 0 0 0 0 0 1020
0 0 0 0 0 0 0 0 0 0 974 0 0 0 0 885
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 918 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 835
0 12s0jKl:0:123
0 18TmD516yvmt:123:52
0 23BOhc40pKXhCbCu8:175:76
0 21Pw1o1fcg6kHIm:251:64
0 15GalRFwb:315:79
0 112X:394:110
0 15zW4dQI:504:151
0 130Jde:655:104
0 23yNSPh9ev0rnu0yU:759:13
0 23UivjVVXnSN60cre:772:59
$ cat yunh.dat
kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV
JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq
yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf
ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE
YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai
staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l
6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7
UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2
I3XVWF8h7to0
Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
这里就不细说了,不过总的感觉,这个数据库还是比较“透明”的。
做多进程并发,这点儿数据当然不够了,我们修改gen.awk,让它生成1000条数据,
然后在插入脚本调用 db 命令的位置,使用后台运行来同时跑多个进程:
./db yunh insert $key $data &
这样执行之后,再观察数据库中的数据,通过执行 walk 或 dump,可以看到确确实实有1000条数据插入了。
为了验证数据准确性,甚至我还写了一个校验脚本,这个脚本每次一行从测试数据中读出key与data,然后再去数据库中取数据做对比,
经过验证,一条不差!
感兴趣的可以参考一下这个脚本:
1 #! /bin/sh
2 OLD_IFS="$IFS"
3 IFS=" "
4 n=0
5 while read line
6 do
7 # echo $line
8 array=($line)
9 key=${array[0]}
10 data=${array[1]}
11 resp=`./db yunh query $key $data`
12 if [ "$resp" != "$data" ]; then
13 echo "query $key with $resp != $data"
14 n=$(($n+1))
15 fi
16 done <demo
17 echo "total different: $n"
18
19 IFS="$OLD_IFS"
20
最近在做 windows 到 linux 程序移植的工作,其中注册表访问的部分一直很头疼,因为写配置文件实在是又零散又不能保证并发问题,
于是自然而然想到,把这个SDK封装在一个跨平台访问配置信息的类中,用于模拟 windows 上访问注册表的机制,结果很完美。
(只是有一点需要注意,因为底层的文件锁只支持进程级别的互斥,同一进程内的多个线程之间,如果已经有锁,则再加锁并不等待,直接进入临界区,
所以这块还是需要注意访问“注册表”最好局限在该进程的一个线程中,特别是有写入的场景时)
最后总结一下,就是 apue 本身是个大宝库,看似简单的一个demo都蕴藏着巨大的潜力,作者不愧为一代巨匠,赞~~~