我正在尝试将UTF-8中用java编码的字符串转换为ISO-8859-1。例如,在字符串‘’abcd‘’中,‘’在ISO-8859-1中表示为E2。在UTF-8中,它表示为两个字节。我相信是C3 A2。当我执行getbytes(编码),然后用ISO-8859-1编码的字节创建一个新字符串时,我得到了两个不同的字符。我是说。有没有其他方法可以保持字符不变,比如-abcd?
发布于 2009-03-17 20:43:21
如果处理的字符编码不是UTF-16,则不应该使用java.lang.String
或char
原语--应该只使用byte[]
数组或ByteBuffer
对象。然后,您可以使用java.nio.charset.Charset
在编码之间进行转换:
Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");
ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});
// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);
// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();
发布于 2009-03-17 22:25:03
从使用UTF-8对字符串进行编码的一组字节开始,从该数据创建一个字符串,然后获取一些以不同编码编码该字符串的字节:
byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 };
Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");
String string = new String ( utf8bytes, utf8charset );
System.out.println(string);
// "When I do a getbytes(encoding) and "
byte[] iso88591bytes = string.getBytes(iso88591charset);
for ( byte b : iso88591bytes )
System.out.printf("%02x ", b);
System.out.println();
// "then create a new string with the bytes in ISO-8859-1 encoding"
String string2 = new String ( iso88591bytes, iso88591charset );
// "I get a two different chars"
System.out.println(string2);
这将正确地输出字符串和iso88591字节:
âabcd
e2 61 62 63 64
âabcd
因此您的字节数组没有与正确的编码配对:
String failString = new String ( utf8bytes, iso88591charset );
System.out.println(failString);
输出
âabcd
(或者,或者您只是将utf8字节写入文件,然后以iso88591的形式在其他地方读取它们)
发布于 2016-02-18 06:20:36
这就是我需要的:
public static byte[] encode(byte[] arr, String fromCharsetName) {
return encode(arr, Charset.forName(fromCharsetName), Charset.forName("UTF-8"));
}
public static byte[] encode(byte[] arr, String fromCharsetName, String targetCharsetName) {
return encode(arr, Charset.forName(fromCharsetName), Charset.forName(targetCharsetName));
}
public static byte[] encode(byte[] arr, Charset sourceCharset, Charset targetCharset) {
ByteBuffer inputBuffer = ByteBuffer.wrap( arr );
CharBuffer data = sourceCharset.decode(inputBuffer);
ByteBuffer outputBuffer = targetCharset.encode(data);
byte[] outputData = outputBuffer.array();
return outputData;
}
https://stackoverflow.com/questions/655891
复制相似问题