我正在用Ruby (1.9)编写一个爬虫,它会消耗来自许多随机站点的大量HTML。
当尝试提取链接时,我决定只使用.scan(/href="(.*?)"/i)
而不是nokogiri/hpricot (主要的加速)。问题是我现在收到了很多"invalid byte sequence in UTF-8
“错误。
据我所知,net/http
库没有任何特定的编码选项,而且传入的内容基本上没有正确标记。
实际处理这些传入数据的最佳方式是什么?我在设置了replace和invalid选项的情况下尝试了.encode
,但到目前为止还没有成功...
https://stackoverflow.com/questions/2982677
复制相似问题