我知道这不可能,但我还是想试一试。
所以我有一些数据作为html表单提交的结果。用户最初在一些字段中输入Kanji。但我得到的只是这样的随机字母:
ްŽ平方
我已经修复了编码问题(这样新表单提交可以很好地处理utf8 ),但是我想看看是否能够在修复之前恢复旧的数据(正确的汉字字母)。
谢谢你的帮助。
更新:
我想还需要一点澄清。正如我所说,已经修复了html表单的编码问题。实际的问题是是否可以从我已经收到的“垃圾”数据中恢复原来的kanji。
例如,我试图“反向工程”以下内容
ôüÒýR
å¼µå¥éºŸ
冉榆平
·¨¶vÚ¬每一行都应该是汉字或中文的名字。我尝试了所有合理的编码,如GBK、gb18030和Big5-HKSCS。到目前为止还没有运气。
上一次更新:
现在在BIG5编码方面取得了一些进展。它不适用于所有的垃圾数据,但对其中约2/3的垃圾数据有效。
发布于 2011-11-04 02:59:19
使用字符集转换器-联机工具
大多数垃圾字母(如果不是全部的话)都应该被恢复。
发布于 2011-11-02 23:35:29
那些信不是ASCII。没有任何ASCII字母有任何口音。
还不清楚你是如何读取这些数据的-是从一个文件,一个数据库,还是别的什么?不管怎么说,它可能已经在UTF-8中了-所以你应该试着用那个编码来读它。您还没有告诉我们您使用的是哪个平台,但是您应该确保无论您使用的是什么,您都可以找到您按数字读取的Unicode字符--这比将值打印为字符要可靠得多。
发布于 2012-01-20 01:24:50
FYI,java字符串类由2字节字符支持,并且是在unicode只有2字节时设计回的。因此,它不处理3字节的日本和中国字符。请参阅http://java.sun.com/developer/technicalArticles/Intl/Supplementary/
https://stackoverflow.com/questions/7988604
复制相似问题