维基百科为Unicode在拉丁文1补编下列出了x80-x9F "C1“范围。此范围也保留在ISO-8859-1代码页中。
我正在查看一个字符串文件,所有这些字符串都在7位的ASCII范围内,除了一些看起来像破折号的\x96实例之外,比如街道地址的中间。
我不知道C1范围中的其他字符最终是否会出现在数据中,所以我想知道是否有正确的方式读取文件。是否有任何8位编码使用x80通过x9F对字符数据而不是终端控制字符?
发布于 2013-08-23 19:39:17
有一个8位编码的大数(潜在的无限数),将图形字符分配给0x80到0x9F范围内的一些或所有字节。微软定义的几个编码在字节位置0x96处有U+2013 EN破折号“-”,这个字符可以出现在一个街道地址中,特别是在数字之间。
另一方面,例如,MacRoman在0x96位置有字母“and”,它很可能出现在西班牙语的街道名称中。
为了对情况进行合理的分析,您应该检查整个数据,可能使用一个筛选器来查找Ascii范围0x00到0x7F以外的所有字节,查看字符出现的上下文,并尝试查找有关数据来源的技术信息。
发布于 2013-08-23 19:14:23
这是个破折号。我猜与连字符(0x2D)略有不同。
http://www.ascii-code.com/
https://stackoverflow.com/questions/18410167
复制相似问题