首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何在SAS的三种编码间来去自如:wlatin1,euc-cn和utf-8 【1代码篇】

在日常工作中,常用的SAS语言环境有三个,即英文(wlatin1 western),简体中文(euc-cn),Unicode(utf-8)。...首先,我们需要掌握两个原理: 不同编码涵盖的字符量:utf8>euc-cn>wlatin1。这表明,从utf8往下转码时。只有在字符适用时才成功。...不同编码多字节字符占据的字节数量:utf8(3 bytes)>euc-cn(2 bytes)>wlatin1(1 byte)。...在下面的代码中,l3变量存在euc-cn不能识别的字符,l2变量存在wlatin1不能识别的字符,l变量的字符,三种编码均能识别。 ? ? ?...euc-cn打开其他两种编码的.sas文件: ? ? utf8打开其他两种编码的.sas文件: ? ? 由此可见。不论字符能不能识别。只要用sas编辑器,打开其他编码的.sas文件。就会产生乱码。

1.2K40

如何在SAS的三种编码间来去自如:wlatin1,euc-cn和utf-8 【2数据集篇】

euc-cn编码下,多字节字符占据2字节。这里,L变量长度是11,L2变量长度是16. ? 在utf-8编码下,多字节字符占据3字节。这里L变量长度是12,L2变量是24,L3变量是8。...我们用euc-cn的编辑器,读取utf-8编码的数据集(A3)时,发生了错误。跟上一个操作类似,存在无法识别的字符。 那么,我们先把UTF-8编码的数据集的特殊字符(A3.L3)变量去掉,会如何呢?...我们用utf-8的编辑器,读取euc-cn编码的数据集(A2)时,发生了错误。...因为在euc-cn编码下,L变量和L2变量需要的长度分别为11和16;而在utf-8编码下,L变量和L2变量需要的长度则是12和24。变量不够长了,将会截断。 ?

76830
领券