任何帮助都将不胜感激。
我需要从网站中提取数据,并发现节点解锁完成了这项工作(请参阅https://github.com/ageitgey/node-unfluff)。有两种方法来调用这个模块。
首先,从命令行工作!第二,不工作的节点js。
extractor = require('unfluff');
data = extractor('test.html');
console.log(data);
输出:{"title":"","lang":null,"tags":[],"image":null,"videos":[],"text":""}
数据返回一个空的json对象。它似乎无法读取test.html。
它似乎不认识test.html。这个例子说,“我的html数据”,有什么方法可以获得html数据吗?谢谢。
发布于 2015-03-06 14:38:57
来自unfluff
的文档
提取器(html,语言) html:要解析的html 语言(可选):文档的两个字母的语言代码。这将是最好的自动检测,但可能有一些情况下,您想要覆盖它。
您正在传递一个文件名,它期望传入文件的实际HTML。
如果您在脚本上下文中执行此操作,我建议您执行以下操作
data = extractor(fs.readFileSync('test.html'));
但是,如果您是在服务器上下文中执行此操作,或者当阻塞成为问题时,您应该这样做:
fs.readFile('test.html', function(err, html){
var data = extractor(html);
console.log(data);
));
https://stackoverflow.com/questions/28908547
复制