首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >node.js不识别unfluff模块中的url。

node.js不识别unfluff模块中的url。
EN

Stack Overflow用户
提问于 2015-03-06 22:11:27
回答 1查看 475关注 0票数 1

任何帮助都将不胜感激。

我需要从网站中提取数据,并发现节点解锁完成了这项工作(请参阅https://github.com/ageitgey/node-unfluff)。有两种方法来调用这个模块。

首先,从命令行工作!第二,不工作的节点js。

代码语言:javascript
运行
复制
extractor = require('unfluff');
data = extractor('test.html');
console.log(data);

输出:{"title":"","lang":null,"tags":[],"image":null,"videos":[],"text":""}

数据返回一个空的json对象。它似乎无法读取test.html。

它似乎不认识test.html。这个例子说,“我的html数据”,有什么方法可以获得html数据吗?谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-03-06 22:38:57

来自unfluff的文档

提取器(html,语言) html:要解析的html 语言(可选):文档的两个字母的语言代码。这将是最好的自动检测,但可能有一些情况下,您想要覆盖它。

您正在传递一个文件名,它期望传入文件的实际HTML。

如果您在脚本上下文中执行此操作,我建议您执行以下操作

代码语言:javascript
运行
复制
data = extractor(fs.readFileSync('test.html'));

但是,如果您是在服务器上下文中执行此操作,或者当阻塞成为问题时,您应该这样做:

代码语言:javascript
运行
复制
fs.readFile('test.html', function(err, html){
    var data = extractor(html);
    console.log(data);
));
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28908547

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档