腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Stormcrawler
删除
螺栓
配置
的
正确
方法
stormcrawler
所以我正在尝试打开我
的
storm crawler实例上
的
删除
螺栓
,这样他们就可以在我们网站
的
urls发生变化和页面消失时清理索引。 作为参考,我在1.13。(我们
的
系统人员尚未将我们升级到Elk v7 ) 我从来没有尝试过修改es-crawler.flux,现在我正在寻找一些帮助,让我知道我做得是否
正确
。我添加了一个
螺栓
: - id: "deleter" className: "com.digitalpebble
浏览 32
提问于2019-09-13
得票数 0
回答已采纳
1
回答
在
StormCrawler
中有没有系统
的
方法
来打开或关闭一些
螺栓
?
apache-storm
、
stormcrawler
我已经开发了一个
StormCrawler
项目,该项目在该拓扑中具有多个额外
的
螺栓
。我
的
爬虫应该工作7 x 24小时,没有任何停机时间。因此,我无法重新启动crawler并更改拓扑
配置
。我想在运行时绕过(打开或关闭)一些
螺栓
。在运行时禁用和启用
StormCrawler
中
的
某些
螺栓
的
最佳
方法
是什么? 谢谢
浏览 16
提问于2020-10-11
得票数 0
回答已采纳
2
回答
StormCrawler
在爬行完一个域时执行操作
java
、
web-crawler
、
stormcrawler
当爬虫完成一个域
的
爬行时,我想做一个动作(在我
的
例子中,发送一个元组到一个
螺栓
)。我目前
的
设置是使用
StormCrawler
与Elasticsearch和Kibana。
浏览 0
提问于2018-04-17
得票数 0
回答已采纳
1
回答
当Fetch_Error与solr和风暴爬虫集成发生时,自动
删除
获取
的
记录
solr
、
apache-storm
、
stormcrawler
在多次尝试之后,在FETCH_ERROR状态被转换为错误之后,我需要处理从solr索引中
删除
文档
的
问题,这些尝试现在还没有发生。我读过关于elasticsearch
的
文章,我们有AbstractStatusUpdaterBolt和DeletionBolt来处理这个问题。对于solr集成,我们是否有类似的
删除
螺栓
?实际上,它与StatusUpdaterBolt一起可以从solr索引中
删除
记录吗?任何方向都会有帮助。谢谢。
浏览 3
提问于2020-01-08
得票数 0
回答已采纳
1
回答
自定义
StormCrawler
java
、
elasticsearch
、
apache-storm
、
stormcrawler
我已经安装了
StormCrawler
,包括Elasticsearch集成。我还完成了Youtube上从
StormCrawler
的
创建者那里找到
的
信息视频。这是一个很好
的
介绍。然而,我发现缺乏关于如何从那里开始
的
信息和视频。 现在,这就提出了如何定制
StormCrawler
的
问题。应该在哪些
螺栓
之间实现附加功能?另外,我如何找出在这些
螺栓
之间传递了哪些字段,以便找出可以提取哪些信息?此外,在将文档保存到Elastics
浏览 8
提问于2020-11-02
得票数 0
1
回答
Stormcrawler
/ Elasticsearch和跟踪页面的入站链接
elasticsearch
、
stormcrawler
当我们在Elasticsearch索引中搜索
Stormcrawler
爬行
的
结果时,人们不可避免地将结果与Google进行比较,并且搜索到
的
结果与相同主题
的
google搜索进行了不利
的
比较。谷歌帮助确定不同页面排名
的
方法
之一是跟踪任何给定页面的入站链接。 在思考我们页面上
的
搜索结果并查看状态索引时,我遇到了字段url.path。url.path似乎包含通向当前页面的完整路径。有没有可能在索引中创建一个多值字段,只填充来自生成url.path
的</
浏览 7
提问于2019-03-23
得票数 0
回答已采纳
1
回答
基于RSS提要中
的
pubDate/lastBuildDate重新爬网页面
web-crawler
、
stormcrawler
我正在设置一个基于
Stormcrawler
(v1.13)和Elasticsearch
的
and搜索。我已经将
Stormcrawler
配置
为每24小时重新爬行一次索引页面。当解析RSS源时,所发现
的
DISCOVERED连同状态URL和来自RSS源
的
一些额外
的
元数据(即,feed.publishedDate)。我最初
的
想法是,只要文档被标记为status (使用自定义索引器
螺栓
),就向FETCHED索引添加一个元数据indexedDate
浏览 1
提问于2019-08-02
得票数 1
1
回答
为warc
螺栓
设置新流失败
web-crawler
、
stormcrawler
我试图设置一个新
的
流连接一个Tika
螺栓
和一个warc
螺栓
。import com.digitalpebble.
stormcrawler
.tika.ParserBolt; .localOrShuffleGrouping("tika", "warc"); 在Tika定义中,我修改了outputDeclarerFields函数如下
浏览 1
提问于2017-06-15
得票数 0
回答已采纳
1
回答
从Eclipse中运行parsefilter.json时找不到自定义
StormCrawler
文件
web-crawler
、
apache-storm
、
stormcrawler
我想报告一下,我一直在研究HTML提取
StormCrawler
响应
的
方法
。我知道JSoupParserBolt使用parsefilter.json文件根据特定需求提取响应。我还知道有一个默认文件用于相同
的
目的。在我
的
例子中,我使用Eclipse来执行pom.xml文件来为设计
的
爬虫生成.jar文件。然后,我运行包含主函数和运行函数
的
CrawlTopology类,其中包含来自SDK
的
所有必要
的
喷口和
螺栓
引用,形成了一个
浏览 0
提问于2018-03-20
得票数 0
回答已采纳
1
回答
StormCrawler
:集群
的
最佳拓扑结构
web-crawler
、
stormcrawler
我有5个风暴节点(具有不同
的
静态ips)和3个弹性节点。就目前而言,我最好
的
拓扑是: - id: "spout" parallelism: 5config: topology.message.timeout.sec
浏览 1
提问于2018-05-29
得票数 1
回答已采纳
1
回答
禁用流风暴器中
的
子域
web-crawler
、
stormcrawler
如何在流中禁用注入子域?现在,如果我们在流中注入www.ebay.com,那么我们就有子域页面:my.ebay.com,community.ebay.com,.
浏览 1
提问于2018-03-21
得票数 0
回答已采纳
3
回答
让风暴喷口等待
螺栓
准备就绪
apache-storm
现在风暴喷口有一个开放
的
方法
来
配置
它们,而
螺栓
有一个准备
方法
。有没有办法让所有Spout实例等待侦听它们
的
Bolts上
的
所有prepare
方法
完成?我有一个案例,我想在飞行中传递一些
配置
信息给
螺栓
(因为这个
配置
信息一直在变化)。我在一些地方读到,我们应该使用Zookeeper或像redis这样
的
内存中
的
键值存储来实现这一点。但我担心
的
是,如果Bo
浏览 0
提问于2014-05-14
得票数 3
1
回答
如何合并Storm组件特定
的
配置
数据?
apache-storm
我有一个包含管口/
螺栓
的
Storm拓扑。有一些特定于特定管口
的
配置
数据,还有一个我想使用
的
特定
螺栓
(即从
配置
文件中读取),这样它就不会被硬编码。
配置
数据
的
示例是spout要从中读取
的
文件名和
螺栓
要写入
的
文件名。我认为
配置
数据被传递到open和prepare
方法
中。 如何合并来自
配置
文件
的
特定于组件<e
浏览 0
提问于2014-06-08
得票数 0
2
回答
Tika Parser减慢
StormCrawler
web-crawler
、
stormcrawler
我有相当常见
的
任务,有几千个网站,并且必须尽可能多地解析(当然,以适当
的
方式)。所以有时候会有好
的
几分钟,有时马上就会下降到几百分钟。当我
删除
Tika流记录-一切恢复正常。所以一般
的
问题是,如何
浏览 2
提问于2019-03-08
得票数 2
1
回答
不为elasticsearch获取/索引页面的风暴爬虫
elasticsearch
、
web-crawler
、
apache-storm
、
stormcrawler
我使用
的
是带有弹性搜索
的
风暴爬虫,在Kibana爬行网页时没有显示带有FETCHED状态
的
页面。对这种行为有什么解释
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
1
回答
在一段时间结束后,你将如何释放风暴数据?
apache-storm
例如,假设您正在使用storm来聚合web访问
的
开始日期和结束日期。会话从用户
的
第一次访问开始,在同一用户30分钟
的
不活动之后结束。这些数据正在实时地被收集到风暴中。在那30分钟
的
不活动之后,你如何告诉风暴释放数据呢?
浏览 1
提问于2014-08-18
得票数 4
回答已采纳
1
回答
使用
StormCrawler
进行重复数据消除
solr
、
apache-storm
、
stormcrawler
我发现
Stormcrawler
还不支持文档重复数据
删除
。这是在未来
的
管道中
的
东西吗?我之所以这样问,是因为我看到签名元数据可以添加到状态核心中,并且可以用于在索引之前
删除
具有相同签名值
的
重复项。如果我在
正确
的
方向上思考,那只是一个想法?苏曼
浏览 5
提问于2018-03-22
得票数 0
1
回答
在Apache中编辑运行时
的
螺栓
进程
java
、
streaming
、
apache-storm
我
的
项目通过风暴将对象数据流到一个图形应用程序中。这些对象
的
外观取决于风暴拓扑中由
螺栓
分配
的
变量。 我
的
问题是,是否有可能通过向其发送一条消息来更新
螺栓
进程,该消息会更改它附加到对象数据
的
变量。例如,在向
螺栓
发送消息之后,声明我希望参数x高于某一数字
的
任何对象显示为红色而不是蓝色。然后,
螺栓
进程将在对象数据中追加一个红色
的
rgb变量,而不是蓝色
的
。我在想,如果有一个displayC
浏览 5
提问于2016-11-04
得票数 0
回答已采纳
1
回答
StormCrawler
设置
apache
、
web-crawler
、
apache-storm
、
stormcrawler
关于
StormCrawler
:,我有几个问题我尝试在默认
的
-regex-filters.txt:-(shop)中使用这个regex。这样做对吗?因为风暴爬虫仍然抓取那些在其网址中有“商店”
的
网站。我需要
的
可能性,以限制每个网站
的
爬行深度,例如,只要抓取
的
网页是“一次点击/水平”远离/home网站。这是那个用例
的
正确
参数吗?如果没有,我们在
浏览 0
提问于2018-03-23
得票数 0
回答已采纳
1
回答
不使用弹簧
的
风口和
螺栓
spring
、
spring-boot
、
apache-storm
我正在用喷口和
螺栓
构建Storm拓扑,并使用Spring进行依赖注入。 不幸
的
是,我
的
领域没有一个是自动
的
,即使我已经宣布我
的
所有喷口和
螺栓
为“组件”。但是,在我声明拓扑
的
地方,Spring工作得很好,所有依赖项都被
正确
注入。是因为cluster.submitTopology("test“、conf、builder.createTopology())将拓扑提交到集群(在本地,它会为喷口和
螺栓
生成不同
的
线程)
浏览 2
提问于2015-09-29
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
正确删除文件的方法
怎样恢复删除的视频?这5个方法才是正确答案!
电脑找回彻底删除的文件,记好这3个正确方法!
dedecms系统配置参数添加新变量的删除方法
电脑应用基础打印配置Windows 7 下手动删除驱动程序的方法
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券