腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9577)
视频
沙龙
1
回答
Nutch
作为
具有
自定义
处理
管道
的
备用
爬行
器
、
、
我想使用Apache
Nutch
作为
一个蜘蛛,它只获取给定
的
网址列表(没有
爬行
)。urls将存储在Redis中,我希望
Nutch
不断地将它们从列表中弹出并获取html。爬虫需要处于待机模式-它总是等待新
的
urls进入Redis,直到用户决定停止作业。此外,我想将我自己
的
处理
管道
应用于提取
的
html文件(不仅仅是文本提取)。有没有可能用
Nutch
?
浏览 20
提问于2019-03-22
得票数 0
1
回答
将
Nutch
web
爬行
功能集成到Java应用程序中
、
、
我会在我
的
Java应用程序中使用Apache从一个或多个网站抓取网页。基本上,为了
处理
页面内容(文本等),我需要为web爬虫找到
的
每个网页调用我
的
Java应用程序
的
方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
1
回答
确保
Nutch
爬行
了特定域
的
所有页面。
我正在使用
Nutch
收集来自单个域
的
所有数据。我如何确保
Nutch
爬行
了给定域下
的
每个页面?
浏览 4
提问于2020-02-26
得票数 0
回答已采纳
4
回答
Java/Scala中
的
Web抓取
、
、
、
、
我需要提取一个长长
的
URL列表
的
关键字、标题和描述(最初为每天250,000个URL,最终为每天15000,000个URL)。
Nutch
-如果我想在我
的
代码中使用它,我不知道
浏览 10
提问于2016-02-08
得票数 2
5
回答
Nutch
的
替代网络爬虫
、
、
我正在尝试建立一个专门
的
搜索引擎网站,索引有限数量
的
网站。我想出
的
解决方案是:现在提出问题: 对这个网站
的
漏洞有什么建设性
的
批评吗?有没有一个既好又简
浏览 69
提问于2010-11-25
得票数 20
1
回答
Apache -只在现有表中
爬行
新注入
的
URL
、
、
我得通过
Nutch
爬几个URL。为此,我每次都要提供种子网址。因此,每一次都会在同一张表中注射。现在,随着时间
的
推移,数据库将增加,在生成阶段,它将查找所有需要时间
的
URL。是否有方法指示
Nutch
只
爬行
新注入
的
URL,而不查看表(对于旧URL)。或者有什么更好
的
方法。
浏览 0
提问于2020-05-18
得票数 0
回答已采纳
1
回答
分别使用
Nutch
中
的
每个插件
、
、
我正在使用提取
器
插件与
Nutch
-1.15。该插件使用分析过
的
数据。是否有一种方法可以将单个插件单独用于分析过
的
数据?
浏览 0
提问于2018-01-24
得票数 0
1
回答
如何从文本中提取所有的地址信息?
、
、
、
、
使用
Nutch
,我
爬行
了URL,抓取数据并将输出转储为文本。现在我有了文本数据,我只想从中提取/删除地址信息。我该怎么做?示例文本
的
Pastebin url: Recno:: 0 sb.append(text.substring(start, e
浏览 0
提问于2015-09-29
得票数 2
1
回答
配置Apache爬虫时出错
、
、
我在Linux服务
器
上运行
Nutch
时遇到了一些问题。我正在尝试
爬行
在seed.txt中配置
的
URL,但我看到了以下错误。
爬行
器
按以下方式触发 我们
的
自定义
nutch
-
浏览 4
提问于2014-08-22
得票数 0
1
回答
Nutch
FetchData作业太慢了
、
、
、
、
我正在使用Apache以编程方式在EMR集群中
爬行
大约7000个带有6个周期
的
URL(在
爬行
过程中很少有
自定义
映射--减少作业)。版本是:
nutch
=v1.15 hadoop=2.7.3,我正在使用20个EC2 m4
的
Amazon集群上运行它。
爬行
的
代码是: throws IOException, InterruptedExceptionFa
浏览 0
提问于2019-08-22
得票数 1
回答已采纳
2
回答
向NutchDocument动态添加字段
、
、
我使用
Nutch
1.12和弹性搜索,我想动态地添加一个字段到NutchDocument。public class CustomIndexFilter implements IndexingFilter { return doc;
浏览 2
提问于2016-11-23
得票数 2
回答已采纳
1
回答
Solr是否有必要为
Nutch
的
爬网数据建立索引?
、
、
我发现
Nutch
1.4只包含一个索引
器
/solrindex。Solr是
Nutch
索引
爬行
数据
的
唯一方法吗?如果没有,还有其他方法吗? 我也想知道为什么
Nutch
1.4使用Solr来索引数据。
浏览 0
提问于2012-04-23
得票数 1
回答已采纳
1
回答
刮除
管道
性能
、
我目前正在使用Scrapy
作为
一个个人项目,但在性能方面挣扎。问题是,这使我
的
爬行
运行了110秒,而不是当我不使用
管道
时运行30秒。我想知道如何优化我<em
浏览 3
提问于2019-11-05
得票数 0
1
回答
需要一个
自定义
类
的
示例,该类
的
实例被提供给sklearn
管道
/ make_pipeline以便与GridSearchCV一起使用
、
、
、
、
根据sklearn.pipeline.Pipeline文档,实例为
管道
元素
的
类应该实现fit()和transform()。我成功地创建了一个
具有
这些方法
的
自定义
类,并且能够很好地
处理
单个
管道
。现在,我想使用
管道
对象
作为
GridSearchCV
的
估计
器
参数。后者要求
自定义
类
具有
set_params()方法,因为我希望搜索
自定义
实例参数
的</
浏览 0
提问于2022-05-16
得票数 0
1
回答
从
Nutch
1.7爬网中排除不带'www‘
的
urls
、
、
我目前正在使用
Nutch
1.7抓取我
的
域名。我
的
问题是URL被索引为www和non-www。具体地说,在启动对Solr 4.5
的
爬行
和索引,然后使用AJAX Solr在前端验证结果之后,搜索结果页面将列出同时是'www‘和'’urls
的
结果/页面,例如:mywebsite.comwww.mywebsite.com/page1.html我
的<
浏览 2
提问于2013-11-02
得票数 1
1
回答
Apache
Nutch
工作实例
的
最大数量
、
一个主节点可以同时运行
的
Apache
Nutch
crawler实例
的
最大数量是多少?
浏览 0
提问于2015-12-17
得票数 7
1
回答
根据通过python脚本传递给
爬行
器
的
URL列表运行scrapy spider
、
、
、
我从数据库中获得了1000个URL,以及2个字段,如name和id[{'name':'name1','id':'id1,'link':'myurl1'},] 现在我想创建一
浏览 0
提问于2015-11-09
得票数 0
3
回答
抓取:
爬行
多个蜘蛛,共享相同
的
项、
管道
和设置,但
具有
不同
的
输出。
、
、
、
我
的
scrapy项目包含多重
爬行
器
(Spider1、Spider2、 等),它
爬行
不同
的
网站,并将每个网站
的
内容保存在不同
的
JSON文件中(output1.json、output2.json等)。在不同网站上收集
的
项目
具有
相同
的
结构,因此蜘蛛使用相同
的
项、
管道
和设置类。输出由
管道
中
的
自定义
JSON类生成。当我单独运行这些蜘蛛时,
浏览 2
提问于2017-07-25
得票数 3
回答已采纳
1
回答
在scrapy中转换最终输出?
、
我有一个成功解析项和子项
的
scrapy过程,但是我看不到是否有一个最终
的
钩子,它允许我在所有内容都被解析之后,但在格式化为输出之前转换最终
的
数据结果。我
的
蜘蛛正在做这样
的
事情: for partsubpart), }
浏览 2
提问于2021-01-11
得票数 0
4
回答
使用Apache进行分布式Web
爬行
--这有可能吗?
、
、
当我参加一次关于网络挖掘
的
采访时,我问了一个有趣
的
问题。问题是,是否有可能使用Apache
爬行
这些网站? 我猜想这是可能
的
,因为它支持星火
的
分布式
处理
能力。面试结束后,我寻找了这个,但没有找到任何有趣
的
答案。这跟火花有可能吗?
浏览 2
提问于2015-04-29
得票数 17
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
关于管道cctv检测设备组成介绍和主要技术要求
介绍管道检测机器人性能特点
你需要知道的………
管道CCTV检测技术介绍
狭窄管道里如何测绘清障?这款爬行机器人获大奖
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券