首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >不使用弹性搜索索引内容的风暴爬虫

不使用弹性搜索索引内容的风暴爬虫
EN

Stack Overflow用户
提问于 2017-11-10 00:43:41
回答 1查看 451关注 0票数 1

当使用风暴爬虫时,它是为Elasticsearch索引,而不是内容索引。

风暴爬虫是最新的‘起源/主人’https://github.com/DigitalPebble/storm-crawler.git

使用elasticsearch-5.6.4

爬虫-甜点

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

对url和title字段进行索引,但不对内容进行索引。

我试图通过遵循Julien的教程:https://www.youtube.com/watch?v=xMCuWpPh-4A来实现这个目标。

除了内容没有被索引到Elasticsearch之外,一切都正常工作。我觉得这是一个小的配置错误,但我尝试了许多变化,没有运气。所以现在我寻求帮助。

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-10 07:57:46

您确定内容没有索引吗?内容字段未存储,请参见IndexInit.sh,但应对其进行索引。要存储它,您可以修改init脚本并重新运行爬行,然后您将获得与其他字段相同的返回。若要测试它是否已编入索引,请尝试对其进行查询并查看其对结果的影响。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47214019

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档