C/C+编程笔记:C语言如何实现动态字符串?简单动态库!

在C语言中,字符串是以连续的字节流表示的,并且以 '\0' 结尾,C语言标准库中也提供了很多函数来操作这种形式的字符串,比如,求字符串长度strlen( ),求子串strstr( ),字符串拷贝strcpy()等等,但是,这些函数并不安全,很可能给系统或应用程序带来严重的问题,如栈溢出等。

C语言字符串中并没有记录操作系统为其分配的长度,用户必须自己将字符串长度保存在其他的变量中,很明显如果操作不当就会产生错误,如臭名昭著的缓冲区溢出。

其他语言中的字符串类型通常在存储字符串本身时也保存了字符串长度,如Pascal,这样做的好处是字符串也可以以空字符'\0'结尾,但也会产生缓冲区溢出错误,本文实现了一个简单的动态字符串库,首先考虑一下,采用什么样的数据结构可以避免缓冲区溢出问题呢,为简化起见,我们定义“字符串”为内存中无类型的字节流,因此可以避开本地化和Unicode等概念,首先定义数据结构如下:

pstr 是指向字符串的指针,str_sz 是字符串长度,而 buf_sz则是包含该字符串的缓冲区长度。

接下来一个问题就是为字符串分配存储空间,由于内存分配可能失效,所以我们需要检查内存分配是否成功,一种可行的方法是在分配函数中返回错误码,但是,这样设计的API不太简洁实用,另外一个可选方案是事先注册一个回调函数,在内存分配失败时再调用该函数,但如果多个客户程序同时申请内存,该方法也会失效,C++中我们可以使用异常来处理这种情况,但是C不支持异常,所以该方法也不太现实。其实,某些其他的标准库代码也有类似的问题,如数学库中某个函数对一个负数进行求根运算,返回结果本来是double,为了表明函数调用出错,我们可以让函数返回NaN(Nota Number),因此程序在需要检查该函数调用是否出错时可以检查返回值。

我们也采用与此类似的方法,如果内存分配出错,那么动态字符串返回NaS(Not a String)状态,任何返回NaS的操作将维护该状态,因此程序只需要在必要的时候检查其返回值,为了实现该效果,我们可以定义如下的宏,

接下来的问题是字符串指针可能指向不同的位置,例如,可以是在编译时刻就确定的静态区,也可以栈中的某个位置,还可以只由malloc或realloc函数分配动态内存区(堆区),只有在堆区分配的内存才能够被resize,即realloc(),并且需要显式地free( ),因此我们需要记录字符串指向区域的类型,我们选择了 buf_sz的高位来保存该状态,基于以上想法,我们如下定义内存分配函数:

有了以上的函数,我们可以定义如下宏,以便将C风格的字符串转换为我们的动态字符串,

上述代码中的宏S(C)使用了alloca在栈上分配空间,这意味着该空间不需要显示的释放,在函数退出时将自动被系统回收。在现在全民学编程的潮流下,程序员想要成为一个优秀的、有能力程序员,做软件开发的话,就来学习C/C++吧,而且学习编程的话有一个学习的氛围跟交流圈子特别重要!手Q裙九五一七二;后6787。想要成为更好的自己,不妨现在就开始学好编程。

大多数时候,字符串分配在栈中,但是,有时候我们也需要将字符串保存在生命周期更长的结构中,此时,我们就需要显式地为字符串分配空间:

当然,既然C语言标准库使用以Null结尾的字符串,我们需要将动态字符串转换成C风格的字符串,如下:

当然,上面的所讲的内容并没有完全解决缓冲区溢出的问题,因此,我们可以定义一下的宏来进行边界检查,

接下来的任务是向动态字符串中追加新的C类型的字符串,

最后容易出现缓冲区溢出情况是格式化输入,由于不知道输入串长度,所以使用sprintf( ) 函数也比较容易出错(本地化),snprintf( ) 能够解决该问题,但是输出缓冲区太小了,很容易被截断,

最后,我们经常在栈中分配格式化字符,以下函数可以将结果打印至屏幕和文件,

至此,动态字符串的大部分API已经介绍完毕,使用上面所讲的函数和宏将会大大减少缓冲区溢出的危险,因此推荐各位同学在实际需要中使用上述的函数和宏。(完)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200604A0Q7TS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券