当使用风暴爬虫时,它是为Elasticsearch索引,而不是内容索引。
风暴爬虫是最新的‘起源/主人’https://github.com/DigitalPebble/storm-crawler.git。
使用elasticsearch-5.6.4
爬虫-甜点
indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"
对url和title字段进行索引,但不对内容进行索引。
我试图通过遵循Julien的教程:https://www.youtube.com/watch?v=xMCuWpPh-4A来实现这个目标。
除了内容没有被索引到Elasticsearch之外,一切都正常工作。我觉得这是一个小的配置错误,但我尝试了许多变化,没有运气。所以现在我寻求帮助。
谢谢。
发布于 2017-11-10 07:57:46
您确定内容没有索引吗?内容字段未存储,请参见IndexInit.sh,但应对其进行索引。要存储它,您可以修改init脚本并重新运行爬行,然后您将获得与其他字段相同的返回。若要测试它是否已编入索引,请尝试对其进行查询并查看其对结果的影响。
https://stackoverflow.com/questions/47214019
复制相似问题