我想做一个超文本传输协议请求,使用node.js从网络服务器加载一些文本。因为响应可以包含很多文本(一些to ),所以我想单独处理每个文本块。我可以使用以下代码来实现这一点:
var req = http.request(reqOptions, function(res) {
...
res.setEncoding('utf8');
res.on('data', function(textChunk) {
// process utf8 text chunk
});
});
这似乎没有问题。但是我想支持HTTP压缩,所以我使用zlib:
var zip = zlib.createUnzip();
// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
// do something like checking the number of bytes downloaded
zip.write(chunk); // give the raw bytes to zlib, s.b.
});
zip.on('data', function(chunk) {
// convert chunk to utf8 text:
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
对于像'\u00c4'
这样由两个字节组成的多字节字符来说,这可能是一个问题:0xC3
和0x84
。如果第一个字节被第一个块(Buffer
)覆盖,第二个字节被第二个块覆盖,那么chunk.toString('utf8')
将在文本块的结尾/开头产生不正确的字符。我怎样才能避免这种情况?
提示:我仍然需要缓冲区(更具体地说是缓冲区中的字节数)来限制下载的字节数。因此,像上面的第一个示例代码那样对非压缩数据使用res.setEncoding('utf8')
并不适合我的需要。
https://stackoverflow.com/questions/12121775
复制相似问题