在一个大型数据集中,我有一些看起来像这样的数据:
"guide (but, yeah, it’s okay to share it with ‘em)."
我已经在十六进制编辑器中打开了该文件,并通过字符编码检测算法(http://code.google.com/p/juniversalchardet/)运行原始字节数据,它被确定为UTF8。
在我看来,数据的来源错误地解释了原始字符集,并将有效的UTF-8作为我收到的输出。
我想尽我所能验证数据。是否有任何启发式/算法可以帮助我尝试验证?
https://stackoverflow.com/questions/14236923
复制相似问题