首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何用拉奇进行深度爬行

如何用拉奇进行深度爬行
EN

Stack Overflow用户
提问于 2016-05-03 16:06:24
回答 1查看 456关注 0票数 1

我目前正在抓取28个站点(小的、小的、大的),并且这些爬行生成了大约25 of的数据。我正在用Elasticsearch建立索引,并使用edge_n-gram策略实现自动完成。经过一些测试,我似乎需要更多的数据来创建更好的多词(短语)建议。我知道我可以简单地抓取更多的站点,但是有什么方法可以让Nutch完全地抓取每个站点,还是尽可能多地创建更多的数据,以便通过edge_n_grams提供更好的搜索建议?

这是一个失败的原因吗?不管我有多少数据,通过记录用户的搜索查询来创建更好的多词建议是最好的方法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-03 18:53:53

您可以始终增加希望爬行的链接数量,如果使用bin/crawl命令,则只需增加迭代次数或修改脚本,并增加sizeFetchlist参数(https://github.com/apache/nutch/blob/master/src/bin/crawl#L117)。此参数仅用作常规topN脚本中的bin/nutch参数。

请记住,这个选项也可以在2.x分支上使用。

你想要实现什么样的建议?在我不久前开发的一个应用程序中,我们使用这两种方法的组合(我们使用Solr而不是elasticsearch,但本质是相同的),我们在一个单独的集合/索引中索引用户查询,在这个应用中,我们配置了一个EdgeNGramFilterFactory (Solr相当于ES的edge_n_grams ),这提供了一些基本的查询建议,基于用户已经搜索到的内容。当使用这种方法找不到任何建议时,我们尝试根据爬行内容的内容建议单个术语,这需要在前端进行一些javascript的调整。

不确定在网页的所有文本内容中使用edge_n_grams是否会有帮助,主要是因为将创建整个内容的NGrams,并且由于匹配的数量众多,建议不会那么相关,但我不知道您的具体用例。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37009077

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档