Stormcrawler删除螺栓配置的正确方法_在StormCrawler中有没有系统的方法来打开或关闭一些螺栓？_风暴拓扑:当两个螺栓具有相同源螺栓时进行确认的正确方法 - 腾讯云开发者社区

stormcrawler

所以我正在尝试打开我的storm crawler实例上的删除螺栓，这样他们就可以在我们网站的urls发生变化和页面消失时清理索引。作为参考，我在1.13。(我们的系统人员尚未将我们升级到Elk v7 ) 我从来没有尝试过修改es-crawler.flux，现在我正在寻找一些帮助，让我知道我做得是否正确。我添加了一个螺栓： - id: "deleter" className: "com.digitalpebble

浏览 32提问于2019-09-13得票数 0

回答已采纳

1回答

在StormCrawler中有没有系统的方法来打开或关闭一些螺栓？

apache-storm、stormcrawler

我已经开发了一个StormCrawler项目，该项目在该拓扑中具有多个额外的螺栓。我的爬虫应该工作7 x 24小时，没有任何停机时间。因此，我无法重新启动crawler并更改拓扑配置。我想在运行时绕过(打开或关闭)一些螺栓。在运行时禁用和启用StormCrawler中的某些螺栓的最佳方法是什么？谢谢

浏览 16提问于2020-10-11得票数 0

回答已采纳

2回答

StormCrawler在爬行完一个域时执行操作

java、web-crawler、stormcrawler

当爬虫完成一个域的爬行时，我想做一个动作(在我的例子中，发送一个元组到一个螺栓)。我目前的设置是使用StormCrawler与Elasticsearch和Kibana。

浏览 0提问于2018-04-17得票数 0

回答已采纳

1回答

当Fetch_Error与solr和风暴爬虫集成发生时，自动删除获取的记录

solr、apache-storm、stormcrawler

在多次尝试之后，在FETCH_ERROR状态被转换为错误之后，我需要处理从solr索引中删除文档的问题，这些尝试现在还没有发生。我读过关于elasticsearch的文章，我们有AbstractStatusUpdaterBolt和DeletionBolt来处理这个问题。对于solr集成，我们是否有类似的删除螺栓?实际上，它与StatusUpdaterBolt一起可以从solr索引中删除记录吗？任何方向都会有帮助。谢谢。

浏览 3提问于2020-01-08得票数 0

回答已采纳

1回答

自定义StormCrawler

java、elasticsearch、apache-storm、stormcrawler

我已经安装了StormCrawler，包括Elasticsearch集成。我还完成了Youtube上从StormCrawler的创建者那里找到的信息视频。这是一个很好的介绍。然而，我发现缺乏关于如何从那里开始的信息和视频。现在，这就提出了如何定制StormCrawler的问题。应该在哪些螺栓之间实现附加功能？另外，我如何找出在这些螺栓之间传递了哪些字段，以便找出可以提取哪些信息？此外，在将文档保存到Elastics

浏览 8提问于2020-11-02得票数 0

1回答

Stormcrawler / Elasticsearch和跟踪页面的入站链接

elasticsearch、stormcrawler

当我们在Elasticsearch索引中搜索Stormcrawler爬行的结果时，人们不可避免地将结果与Google进行比较，并且搜索到的结果与相同主题的google搜索进行了不利的比较。谷歌帮助确定不同页面排名的方法之一是跟踪任何给定页面的入站链接。在思考我们页面上的搜索结果并查看状态索引时，我遇到了字段url.path。url.path似乎包含通向当前页面的完整路径。有没有可能在索引中创建一个多值字段，只填充来自生成url.path的</

浏览 7提问于2019-03-23得票数 0

回答已采纳

1回答

基于RSS提要中的pubDate/lastBuildDate重新爬网页面

web-crawler、stormcrawler

我正在设置一个基于Stormcrawler (v1.13)和Elasticsearch的and搜索。我已经将Stormcrawler配置为每24小时重新爬行一次索引页面。当解析RSS源时，所发现的DISCOVERED连同状态URL和来自RSS源的一些额外的元数据(即，feed.publishedDate)。我最初的想法是，只要文档被标记为status (使用自定义索引器螺栓)，就向FETCHED索引添加一个元数据indexedDate

浏览 1提问于2019-08-02得票数 1

1回答

为warc螺栓设置新流失败

web-crawler、stormcrawler

我试图设置一个新的流连接一个Tika螺栓和一个warc螺栓。import com.digitalpebble.stormcrawler.tika.ParserBolt; .localOrShuffleGrouping("tika", "warc"); 在Tika定义中，我修改了outputDeclarerFields函数如下

浏览 1提问于2017-06-15得票数 0

回答已采纳

1回答

从Eclipse中运行parsefilter.json时找不到自定义StormCrawler文件

web-crawler、apache-storm、stormcrawler

我想报告一下，我一直在研究HTML提取StormCrawler响应的方法。我知道JSoupParserBolt使用parsefilter.json文件根据特定需求提取响应。我还知道有一个默认文件用于相同的目的。在我的例子中，我使用Eclipse来执行pom.xml文件来为设计的爬虫生成.jar文件。然后，我运行包含主函数和运行函数的CrawlTopology类，其中包含来自SDK的所有必要的喷口和螺栓引用，形成了一个

浏览 0提问于2018-03-20得票数 0

回答已采纳

1回答

StormCrawler:集群的最佳拓扑结构

web-crawler、stormcrawler

我有5个风暴节点(具有不同的静态ips)和3个弹性节点。就目前而言，我最好的拓扑是： - id: "spout" parallelism: 5config: topology.message.timeout.sec

浏览 1提问于2018-05-29得票数 1

回答已采纳

1回答

禁用流风暴器中的子域

web-crawler、stormcrawler

如何在流中禁用注入子域？现在，如果我们在流中注入www.ebay.com，那么我们就有子域页面：my.ebay.com，community.ebay.com，.

浏览 1提问于2018-03-21得票数 0

回答已采纳

3回答

让风暴喷口等待螺栓准备就绪

apache-storm

现在风暴喷口有一个开放的方法来配置它们，而螺栓有一个准备方法。有没有办法让所有Spout实例等待侦听它们的Bolts上的所有prepare方法完成？我有一个案例，我想在飞行中传递一些配置信息给螺栓(因为这个配置信息一直在变化)。我在一些地方读到，我们应该使用Zookeeper或像redis这样的内存中的键值存储来实现这一点。但我担心的是，如果Bo

浏览 0提问于2014-05-14得票数 3

1回答

如何合并Storm组件特定的配置数据？

apache-storm

我有一个包含管口/螺栓的Storm拓扑。有一些特定于特定管口的配置数据，还有一个我想使用的特定螺栓(即从配置文件中读取)，这样它就不会被硬编码。配置数据的示例是spout要从中读取的文件名和螺栓要写入的文件名。我认为配置数据被传递到open和prepare方法中。如何合并来自配置文件的特定于组件<e

浏览 0提问于2014-06-08得票数 0

2回答

Tika Parser减慢StormCrawler

web-crawler、stormcrawler

我有相当常见的任务，有几千个网站，并且必须尽可能多地解析(当然，以适当的方式)。所以有时候会有好的几分钟，有时马上就会下降到几百分钟。当我删除Tika流记录-一切恢复正常。所以一般的问题是，如何

浏览 2提问于2019-03-08得票数 2

1回答

不为elasticsearch获取/索引页面的风暴爬虫

elasticsearch、web-crawler、apache-storm、stormcrawler

我使用的是带有弹性搜索的风暴爬虫，在Kibana爬行网页时没有显示带有FETCHED状态的页面。对这种行为有什么解释

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

在一段时间结束后，你将如何释放风暴数据？

apache-storm

例如，假设您正在使用storm来聚合web访问的开始日期和结束日期。会话从用户的第一次访问开始，在同一用户30分钟的不活动之后结束。这些数据正在实时地被收集到风暴中。在那30分钟的不活动之后，你如何告诉风暴释放数据呢？

浏览 1提问于2014-08-18得票数 4

回答已采纳

1回答

使用StormCrawler进行重复数据消除

solr、apache-storm、stormcrawler

我发现Stormcrawler还不支持文档重复数据删除。这是在未来的管道中的东西吗？我之所以这样问，是因为我看到签名元数据可以添加到状态核心中，并且可以用于在索引之前删除具有相同签名值的重复项。如果我在正确的方向上思考，那只是一个想法？苏曼

浏览 5提问于2018-03-22得票数 0

1回答

在Apache中编辑运行时的螺栓进程

java、streaming、apache-storm

我的项目通过风暴将对象数据流到一个图形应用程序中。这些对象的外观取决于风暴拓扑中由螺栓分配的变量。我的问题是，是否有可能通过向其发送一条消息来更新螺栓进程，该消息会更改它附加到对象数据的变量。例如，在向螺栓发送消息之后，声明我希望参数x高于某一数字的任何对象显示为红色而不是蓝色。然后，螺栓进程将在对象数据中追加一个红色的rgb变量，而不是蓝色的。我在想，如果有一个displayC

浏览 5提问于2016-11-04得票数 0

回答已采纳

1回答

StormCrawler设置

apache、web-crawler、apache-storm、stormcrawler

关于StormCrawler：，我有几个问题我尝试在默认的-regex-filters.txt：-(shop)中使用这个regex。这样做对吗？因为风暴爬虫仍然抓取那些在其网址中有“商店”的网站。我需要的可能性，以限制每个网站的爬行深度，例如，只要抓取的网页是“一次点击/水平”远离/home网站。这是那个用例的正确参数吗？如果没有，我们在

浏览 0提问于2018-03-23得票数 0

回答已采纳

1回答

不使用弹簧的风口和螺栓

spring、spring-boot、apache-storm

我正在用喷口和螺栓构建Storm拓扑，并使用Spring进行依赖注入。不幸的是，我的领域没有一个是自动的，即使我已经宣布我的所有喷口和螺栓为“组件”。但是，在我声明拓扑的地方，Spring工作得很好，所有依赖项都被正确注入。是因为cluster.submitTopology("test“、conf、builder.createTopology())将拓扑提交到集群(在本地，它会为喷口和螺栓生成不同的线程)

浏览 2提问于2015-09-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云