问在Java中将UTF-8转换为ISO-8859-1 -如何将其保留为单字节
EN

Stack Overflow用户

提问于 2009-03-17 20:25:06

回答 8查看 316K关注 0票数 66

我正在尝试将UTF-8中用java编码的字符串转换为ISO-8859-1。例如，在字符串‘’abcd‘’中，‘’在ISO-8859-1中表示为E2。在UTF-8中，它表示为两个字节。我相信是C3 A2。当我执行getbytes(编码)，然后用ISO-8859-1编码的字节创建一个新字符串时，我得到了两个不同的字符。我是说。有没有其他方法可以保持字符不变，比如-abcd？

java

utf-8

iso-8859-1

回答 8

Stack Overflow用户

发布于 2009-03-17 20:43:21

如果处理的字符编码不是UTF-16，则不应该使用java.lang.String或char原语--应该只使用byte[]数组或ByteBuffer对象。然后，您可以使用java.nio.charset.Charset在编码之间进行转换：

Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");

ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});

// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);

// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();

票数 109

Stack Overflow用户

发布于 2009-03-17 20:39:17

byte[] iso88591Data = theString.getBytes("ISO-8859-1");

就能达到目的。根据您的描述，您似乎正在尝试“存储ISO-8859-1字符串”。Java中的String对象总是以UTF-16隐式编码的。没有办法改变这种编码。

不过，您可以做的是获取构成它的其他编码的字节(使用如上所示的.getBytes()方法)。

票数 39

Stack Overflow用户

发布于 2009-03-17 22:25:03

从使用UTF-8对字符串进行编码的一组字节开始，从该数据创建一个字符串，然后获取一些以不同编码编码该字符串的字节：

    byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 };
    Charset utf8charset = Charset.forName("UTF-8");
    Charset iso88591charset = Charset.forName("ISO-8859-1");

    String string = new String ( utf8bytes, utf8charset );

    System.out.println(string);

    // "When I do a getbytes(encoding) and "
    byte[] iso88591bytes = string.getBytes(iso88591charset);

    for ( byte b : iso88591bytes )
        System.out.printf("%02x ", b);

    System.out.println();

    // "then create a new string with the bytes in ISO-8859-1 encoding"
    String string2 = new String ( iso88591bytes, iso88591charset );

    // "I get a two different chars"
    System.out.println(string2);

这将正确地输出字符串和iso88591字节：

âabcd 
e2 61 62 63 64 
âabcd

因此您的字节数组没有与正确的编码配对：

    String failString = new String ( utf8bytes, iso88591charset );

    System.out.println(failString);

输出

Ã¢abcd

(或者，或者您只是将utf8字节写入文件，然后以iso88591的形式在其他地方读取它们)

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/655891

复制

相似问题

问在Java中将UTF-8转换为ISO-8859-1 -如何将其保留为单字节
EN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中将UTF-8转换为ISO-8859-1 -如何将其保留为单字节EN

回答 8

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中将UTF-8转换为ISO-8859-1 -如何将其保留为单字节
EN