首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从随机/垃圾ASCII中恢复原始UTF8 8/Kanji/中文文本

从随机/垃圾ASCII中恢复原始UTF8 8/Kanji/中文文本
EN

Stack Overflow用户
提问于 2011-11-02 23:30:35
回答 3查看 2.4K关注 0票数 2

我知道这不可能,但我还是想试一试。

所以我有一些数据作为html表单提交的结果。用户最初在一些字段中输入Kanji。但我得到的只是这样的随机字母:

ްŽ平方

我已经修复了编码问题(这样新表单提交可以很好地处理utf8 ),但是我想看看是否能够在修复之前恢复旧的数据(正确的汉字字母)。

谢谢你的帮助。

更新:

我想还需要一点澄清。正如我所说,已经修复了html表单的编码问题。实际的问题是是否可以从我已经收到的“垃圾”数据中恢复原来的kanji。

例如,我试图“反向工程”以下内容

代码语言:javascript
运行
复制
ôüÒýR
å¼µå¥éºŸ
冉榆平
·¨¶vÚ¬

每一行都应该是汉字或中文的名字。我尝试了所有合理的编码,如GBK、gb18030和Big5-HKSCS。到目前为止还没有运气。

上一次更新:

现在在BIG5编码方面取得了一些进展。它不适用于所有的垃圾数据,但对其中约2/3的垃圾数据有效。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-11-04 02:59:19

使用字符集转换器-联机工具

  • 输入编码应该是UTF8
  • 对于输出编码,请尝试所有东方字符的合理编码。
  • 记得检查第二个复选框。

大多数垃圾字母(如果不是全部的话)都应该被恢复。

票数 1
EN

Stack Overflow用户

发布于 2011-11-02 23:35:29

那些信不是ASCII。没有任何ASCII字母有任何口音。

还不清楚你是如何读取这些数据的-是从一个文件,一个数据库,还是别的什么?不管怎么说,它可能已经在UTF-8中了-所以你应该试着用那个编码来读它。您还没有告诉我们您使用的是哪个平台,但是您应该确保无论您使用的是什么,您都可以找到您按数字读取的Unicode字符--这比将值打印为字符要可靠得多。

票数 0
EN

Stack Overflow用户

发布于 2012-01-20 01:24:50

FYI,java字符串类由2字节字符支持,并且是在unicode只有2字节时设计回的。因此,它不处理3字节的日本和中国字符。请参阅http://java.sun.com/developer/technicalArticles/Intl/Supplementary/

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7988604

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档