我一直在尝试理解为什么在JavaScript的世界里到处都需要使用UTF-8编码/解码,并且了解到JavaScript使用UTF-16编码。
Let’s talk about Javascript string encoding
所以我假设这就是像utf8.js这样的库存在的原因,它可以在UTF-16和UTF-8之间进行转换。
但在最后,他提供了一些见解:
Node中的
编码非常令人困惑,而且很难正确使用。但是,当您意识到Javascript字符串类型将始终编码为UTF-16,并且RAM中的大多数其他位置的字符串与套接字、文件或字节数组交互时,它会有所帮助,字符串将被重新编码为UTF-8。
当然,这一切都是非常低效的。大多数字符串都可以表示为UTF-8,使用两个字节来表示它们的字符意味着您使用了比所需更多的内存,并且在遇到HTTP或文件系统边界时需要支付O(n)税来重新编码字符串。
这让我想起了超文本标记语言<head>
中的,除了“你需要它让文本正常工作”之外,我从来没有想过太多。
现在我想知道,如果<meta charset=“utf-8”>
标记告诉JavaScript进行UTF8编码,那么这个问题是关于哪个的。这意味着在JavaScript中创建字符串时,它们将是UTF8编码的,而不是UTF16编码的。或者如果我错了,它到底在做什么。如果它告诉JavaScript使用UTF-8编码而不是UTF-16 (我猜这会被认为是“默认”),那么这意味着你不需要为在UTF-8和UTF-16之间进行转换而支付O(n)
税,这将意味着性能的提高。想知道我是否理解正确,或者如果不是,我遗漏了什么。
https://stackoverflow.com/questions/51487992
复制相似问题