我有一个包括字节序列c3 82 c2 bf的文本数据源。在上下文中,我认为它应该是一个大写的希腊语Phi符号(Φ)。
无论如何,我不知道使用的是什么编码;我正在编写一个Python脚本,将这些数据处理到一个使用Unicode的数据库中,但它对这个特定的数据序列抛出了一个异常。
对如何处理它有什么建议吗?
发布于 2012-07-19 01:13:26
解释为UTF-8的c3 82是“?”U+00C2,c2 bf是“?”U+00BF,这没有多大意义,但它在技术上是有效的UTF-8数据,因此不应报告为字符级数据错误。它被解释为UTF-16,是朝鲜语音节,也可能是CJK表意文字,这取决于字符顺序,但仍然是正式有效的数据,尽管很可能不是它的意思。
这听起来像是双重转换的结果,但很难做出有根据的猜测。如果它代表Φ,则UTF-16格式是03 A6或A6 03,而UTF-8格式是CE A6,这与实际数据并不真正相似。有关数据来源的信息可能有助于猜测可能发生了什么代码转换。
发布于 2013-02-08 22:56:30
它可能是Ñ字符的双重转换。
UTF-8中的Ñ字符为:0xc391。
如果您尝试从拉丁文-1转换为UTF-8 Ñ字符,该字符已经以UTF-8编码,您将得到:0xc382c2bf。
为什么?
0xc382是从-1\f25-1\f25 0xc3 character à -1\f6转换而来的UTF-8字符转换-1\f25 ¿ -1\f6字符(带有-1\f250xc382-1\f6的A是¿-1\f25 character -1\f6字符,这是当您无法从-1\f25-1\f6拉丁-1\f25-1\f25-1\f6转换一个字符时得到的发布于 2014-09-16 22:47:30
顺便说一句,我最终得到了来自 的c3 82 c2 bf。我没有深入研究转换,因为我可以简单地丢弃那部分代码。我只想说, 是在一个html电子邮件模板中,该模板由wordpress插件处理。
https://stackoverflow.com/questions/11546351
复制相似问题