问将流缓冲区转换为UTF8字符串
EN

Stack Overflow用户

提问于 2012-08-25 20:02:24

回答 1查看 234.5K关注 0票数 194

我想做一个超文本传输协议请求，使用node.js从网络服务器加载一些文本。因为响应可以包含很多文本(一些to )，所以我想单独处理每个文本块。我可以使用以下代码来实现这一点：

var req = http.request(reqOptions, function(res) {
    ...
    res.setEncoding('utf8');
    res.on('data', function(textChunk) {
        // process utf8 text chunk
    });
});

这似乎没有问题。但是我想支持HTTP压缩，所以我使用zlib：

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
    // do something like checking the number of bytes downloaded
    zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
    // convert chunk to utf8 text:
    var textChunk = chunk.toString('utf8');

    // process utf8 text chunk
});

对于像'\u00c4'这样由两个字节组成的多字节字符来说，这可能是一个问题：0xC3和0x84。如果第一个字节被第一个块(Buffer)覆盖，第二个字节被第二个块覆盖，那么chunk.toString('utf8')将在文本块的结尾/开头产生不正确的字符。我怎样才能避免这种情况？

提示:我仍然需要缓冲区(更具体地说是缓冲区中的字节数)来限制下载的字节数。因此，像上面的第一个示例代码那样对非压缩数据使用res.setEncoding('utf8')并不适合我的需要。

node.js

回答 1

Stack Overflow用户

发布于 2016-10-02 20:02:08

var fs = require("fs");

function readFileLineByLine(filename, processline) {
    var stream = fs.createReadStream(filename);
    var s = "";
    stream.on("data", function(data) {
        s += data.toString('utf8');
        var lines = s.split("\n");
        for (var i = 0; i < lines.length - 1; i++)
            processline(lines[i]);
        s = lines[lines.length - 1];
    });

    stream.on("end",function() {
        var lines = s.split("\n");
        for (var i = 0; i < lines.length; i++)
            processline(lines[i]);
    });
}

var linenumber = 0;
readFileLineByLine(filename, function(line) {
    console.log(++linenumber + " -- " + line);
});

票数 -5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12121775

复制

相似问题

问将流缓冲区转换为UTF8字符串
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将流缓冲区转换为UTF8字符串EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将流缓冲区转换为UTF8字符串
EN