专栏首页编程拯救世界聊聊 Go 语言中的字符表示与字符串遍历

聊聊 Go 语言中的字符表示与字符串遍历

和其他语言不同,在 Go 语言中没有字符类型,字符只是整数的特殊用例

为什么说字符只是整数的特殊用例呢?因为在 Go 中,用于表示字符的 byterune 类型都是整型的别名。在 Go 的源码中我们可以看到:

// byte is an alias for uint8 and is equivalent to uint8 in all ways. It is
// used, by convention, to distinguish byte values from 8-bit unsigned
// integer values.
type byte = uint8

// rune is an alias for int32 and is equivalent to int32 in all ways. It is
// used, by convention, to distinguish character values from integer values.
type rune = int32
  • byteuint8 的别名,长度为 1 个字节,用于表示 ASCII 字符
  • runeint32 的别名,长度为 4 个字节,用于表示以 UTF-8 编码的 Unicode 码点

Tips:Unicode 从 0 开始,为每个符号指定一个编号,这叫做「码点」(code point)。

字符的表示

那么,如何在 Go 语言中表示字符呢?

在 Go 语言中使用单引号包围来表示字符,例如 'j'

byte

如果要表示 byte 类型的字符,可以使用 byte 关键字来指明字符变量的类型:

var byteC byte = 'j'

又因为 byte 实质上是整型 uint8,所以可以直接转成整型值。在格式化说明符中我们使用 %c 表示字符,%d 表示整型:

// 声明 byte 类型字符
var byteC byte = 'j'
fmt.Printf("字符 %c 对应的整型为 %d\n", byteC, byteC)
// Output: 字符 j 对应的整型为 106

rune

byte 相同,想要声明 rune 类型的字符可以使用 rune 关键字指明:

var runeC rune = 'J'

但如果在声明一个字符变量时没有指明类型,Go 会默认它是 rune 类型

runeC := 'J'
fmt.Printf("字符 %c 的类型为 %T\n", runeC, runeC)
// Output: 字符 J 的类型为 int32

为什么需要两种类型?

看到这里你可能会问了,既然都用于表示字符,为什么还需要两种类型呢?

我们知道,byte 占用一个字节,因此它可以用于表示 ASCII 字符。而 UTF-8 是一种变长的编码方法,字符长度从 1 个字节到 4 个字节不等byte 显然不擅长这样的表示,就算你想要使用多个 byte 进行表示,你也无从知晓你要处理的 UTF-8 字符究竟占了几个字节。

因此,如果你在中文字符串上狂妄地进行截取,一定会输出乱码:

testString := "你好,世界"
fmt.Println(testString[:2]) // 输出乱码,因为截取了前两个字节
fmt.Println(testString[:3]) // 输出「你」,一个中文字符由三个字节表示

此时就需要 rune 的帮助了。利用 []rune() 将字符串转为 Unicode 码点再进行截取,这样就无需考虑字符串中含有 UTF-8 字符的情况了:

testString := "你好,世界"
fmt.Println(string([]rune(testString)[:2])) // 输出:「你好」

Tips:Unicode 和 ASCII 一样,是一种字符集,UTF-8 则是一种编码方式。

遍历字符串

字符串遍历有两种方式,一种是下标遍历,一种是使用 range

下标遍历

由于在 Go 语言中,字符串以 UTF-8 编码方式存储,使用 len() 函数获取字符串长度时,获取到的是该 UTF-8 编码字符串的字节长度,通过下标索引字符串将会产生一个字节。因此,如果字符串中含有 UTF-8 编码字符,就会出现乱码:

testString := "Hello,世界"

for i := 0; i < len(testString); i++ {
    c := testString[i]
    fmt.Printf("%c 的类型是 %s\n", c, reflect.TypeOf(c))
}

/* Output:
H 的类型是 uint8(ASCII 字符返回正常)
e 的类型是 uint8
l 的类型是 uint8
l 的类型是 uint8
o 的类型是 uint8
ï 的类型是 uint8(从这里开始出现了奇怪的乱码)
¼ 的类型是 uint8
Œ 的类型是 uint8
ä 的类型是 uint8
¸ 的类型是 uint8
– 的类型是 uint8
ç 的类型是 uint8
• 的类型是 uint8
Œ 的类型是 uint8
*/

range

range 遍历则会得到 rune 类型的字符:

testString := "Hello,世界"

for _, c := range testString {
    fmt.Printf("%c 的类型是 %s\n", c, reflect.TypeOf(c))
}

/* Output:
H 的类型是 int32
e 的类型是 int32
l 的类型是 int32
l 的类型是 int32
o 的类型是 int32
, 的类型是 int32
世 的类型是 int32
界 的类型是 int32
*/

总结

  • Go 语言中没有字符的概念,一个字符就是一堆字节,它可能是单个字节(ASCII 字符集),也有可能是多个字节(Unicode 字符集)
  • byteuint8 的别名,长度为 1 个字节,用于表示 ASCII 字符
  • rune 则是 int32 的别名,长度为 4 个字节,用于表示以 UTF-8 编码的 Unicode 码点
  • 字符串的截取是以字节为单位的
  • 使用下标索引字符串会产生字节
  • 想要遍历 rune 类型的字符则使用 range 方法进行遍历

参考资料

  • 阮一峰 - Unicode 与 JavaScript 详解: https://www.ruanyifeng.com/blog/2014/12/unicode.html
  • The Go Blog - Strings, bytes, runes and characters in Go: https://blog.golang.org/strings

本文分享自微信公众号 - 编程拯救世界(CodeWarrior_)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • dubbo-go 的开发、设计与功能介绍

    dubbo-go 是目前 Dubbo 多语言生态最火热的项目。dubbo-go 最早的版本应该要追溯到 2016 年,由社区于雨同学编写 dubbo-go 的初...

    奋斗蒙
  • golang实现mysql连接池

    golang中连接mysql数据库,需要使用一个第三方类库github.com/go-sql-driver/mysql,在这个类库中就实现了mysql的连接池,...

    陶士涵
  • Golang语言之JSON解码函数Unmarshal

    工作中我们经常会遇到解码JSON格式的数据,本文通过4个示例介绍工作中常用到的四种 JSON格式。在 Golang语言中,通常是使用标准库的encoding/j...

    frankphper
  • Golang语言教程之hello,world

    学习新语言通常从hello,world开始,本文通过hello,world示例代码来介绍一下Golang 语言的基础知识。

    frankphper
  • 11.21 VR扫描:七维视觉完成数千万人民币B轮融资;Oculus Go暂不支持USB扩容功能

    近日,北京七维视觉科技有限公司,宣布已获得数千万人民币B轮融资,由广东南方媒体融合发展投资基金和青岛巨峰科技创业投资有限公司共同投资。该轮融资资金将用于后续产品...

    VRPinea
  • 谷歌软件工程师:我为什么喜欢用Go语言?

    Go语言最近几年逐渐获得越来越多的开发者的喜欢。在Go社区前不久刚刚庆祝Go诞生10周年生日之际,谷歌云软件工程师Benjamin Congdon发表个人博客,...

    新智元
  • 学习Golang的4个技巧【Programming(Go)】

    我:“好。”(内部对话):“这是用Go语言编写的。那是什么?”(谷歌工作人员):“哦,一种编程语言。我在职业生涯中已经学到了一些。没那么难吧。”

    Potato
  • 重构:改善饿了么交易系统的设计思路

    重构前的交易系统第一版的代码可以追溯到 8 年前,这期间也经历过拆解重构,17 年我来到时,主要系统是这样:

    DevOps时代
  • 为什么要在WebAssembly中使用Rust?【Programming】

    WebAssembly(Wasm)是一项技术,可以重塑我们为浏览器构建应用程序的方式。 它不仅使我们能够构建全新的Web应用程序类,而且还将使我们使用JavaS...

    Potato
  • 如何掌握所有的程序语言,对的,是所有

    很多编程初学者至今还在给我写信请教,问我该学习什么程序语言,怎么学习。由于我知道如何掌握“所有”的程序语言,总是感觉这种该学“一种”什么语言的问题比较低级,所以...

    JavaQ

扫码关注云+社区

领取腾讯云代金券