在Java中将UTF-8转换为ISO-8859-1 - 如何将其保存为单字节

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (8)

我试图将UTF-8中的java编码的字符串转换为ISO-8859-1。举例来说,在字符串'âabcd''中'在ISO-8859-1中表示为E2。在UTF-8中,它表示为两个字节。我相信C3 A2。当我做一个getbytes(编码),然后用ISO-8859-1编码中的字节创建一个新字符串时,我得到了两个不同的字符。¢?。有没有其他的方式来做到这一点,以保持字符相同,即âabcd?

提问于
用户回答回答于
byte[] iso88591Data = theString.getBytes("ISO-8859-1");

会做的伎俩。从你的描述看来,你似乎试图“存储ISO-8859-1字符串”。Java中的字符串对象总是以UTF-16隐式编码。无法更改该编码。

你可以做什么,'虽然是得到构成它的一些其他编码的字节(使用如上所示的.getBytes()方法)。

用户回答回答于

如果你正在处理除UTF-16以外的字符编码,你不应该使用java.lang.Stringchar基元 - 你应该只使用byte[]数组或ByteBuffer对象。然后,您可以使用java.nio.charset.Charset在编码之间进行转换:

Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");

ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});

// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);

// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();

扫码关注云+社区