腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如何
使用
ManifoldCF
或
nutch
抓取
具有
SAML
身份验证
的
网站
?
、
、
、
、
我正在尝试
抓取
一个
网站
,更具体地说是一个
使用
ManifoldCF
的
Google Site,它
具有
SAML
身份验证
,并将
抓取
的
数据索引到Apache Solr中。但当我
抓取
网址,它给我
的
302重定向到登录页面,然后说RESPONSECODENOTINDEXABLE。 我不确定我
的
身份验证
是否正确。我
使用
的
是Ses
浏览 9
提问于2016-08-08
得票数 18
1
回答
在Apache
Nutch
中设置cookie标头
、
我想
抓取
一个特定
的
网站
,其中
使用
cookies进行
身份验证
。我想在Apache
Nutch
提出
的
用于
抓取
站点
的
每个GET请求中设置cookie和用户代理信息。
如何
在配置中指定cookie信息,或者是否需要为此编写自定义插件?
浏览 0
提问于2016-06-04
得票数 1
3
回答
如何
重新爬行
nutch
、
我
使用
的
是集成了mysql
的
Nutch
2.1。我
抓取
了2个站点,
Nutch
成功地
抓取
了它们,并将数据存储到Mysql中。我
使用
Solr 4.0.0进行搜索。现在我
的
问题是,当我试图重新
抓取
一些
网站
,如trailer.apple.com
或
任何其他
网站
,它总是
抓取
最后
抓取
的
网址。甚至我已经从seeds.txt文件
浏览 1
提问于2012-12-14
得票数 2
1
回答
爬行请求
身份验证
的
网站
、
我遵循这个链接,通过提供用户名和密码来爬行几个
网站
。realm="domain" /></credentials>(Ii)在
nutch
-site.xml和
nutch
-default.xml中定义httpclient属性。要求:我想
抓取
网站</
浏览 0
提问于2014-08-07
得票数 0
2
回答
仅将
Nutch
限制为种子路径及其下面的网页
、
、
我已经设置了
Nutch
2.x来
抓取
少数几个多语域。我可以将
Nutch
限制为仅内链接,但不能限制子文件夹。例如,对于后续种子, 我只想
抓取
/urdu中
的
URL,因为这个
网站
也包含其他语言
的
网页。现在,我
如何
配置
或
自定义
Nutch
来处理这些案例?
浏览 8
提问于2020-09-17
得票数 0
回答已采纳
1
回答
使用
apache
nutch
爬行基于
身份验证
的
页面
、
、
如何
使用
nutch
抓取
基于
身份验证
的
页面?我已经在
nutch
-site.xml、
nutch
-default.xml和httpclient-auth.xml中完成了所有必需
的
设置。但是我
的
爬虫仍然不能
抓取
页面。有没有什么方法可以让我
使用
API密钥来帮助
抓取
?
浏览 1
提问于2018-06-26
得票数 0
2
回答
Nutch
和Http POST
身份验证
?
、
我被困在需要
抓取
有表单帖子
的
网站
的
地方。
Nutch
不支持这一点。我
如何
解决这个问题,这样我才能
使用
Nutch
抓取
这些
网站
?有没有更好
的
解决方案?
浏览 2
提问于2012-07-06
得票数 1
回答已采纳
1
回答
如何
使用
nutch
插件解析位于特定HTML标签中
的
内容?
我正在
使用
Nutch
抓取
网站
,我想分析由
Nutch
抓取
的
html页面的特定部分。我知道我必须创建一个用于自定义解析
的
插件,因为
Nutch
提供
的
htmlparser插件会删除所有的html标签、css和javascript内容,只留下文本内容。我参考了这个博客,但我发现它是用来解析html标签
的
,而我想解析
的
是
具有
特定值
的
属性
的
h
浏览 3
提问于2013-07-31
得票数 7
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,
NUTCH
的
作用是什么?
、
、
我想在其中爬行一些
网站
,并将其索引和信息存储在Hadoop中。然后
使用
Solr搜索就可以了。但我面临着很多问题。如果在google上搜索,那么不同的人会给出不同
的
建议和不同
的
配置方式来设置基于hadoop
的
搜索引擎。以下是我
的
一些问题:2) S
浏览 2
提问于2012-09-06
得票数 3
2
回答
带有种子
的
Nutch
爬网urls在范围内
、
一些站点
具有
www.___.com/id=1到www.___.com/id=1000 url模式。我
如何
使用
nutch
抓取
网站
。是否有任何wway提供种子以获取范围??
浏览 1
提问于2010-06-13
得票数 0
1
回答
使用
Solr
Nutch
抓取
特定数据
、
、
、
我看到一些像这样
的
搜索
网站
,我想知道他们是
如何
在price,image和description等其他
网站
上
抓取
数据并将其显示在他们
的
网站
上
的
。我正在考虑
使用
Solr来索引数据,
使用
Nutch
来
抓取
数据。我是网络爬行和索引
的
新手,到目前为止,我只能
抓取
网页
的
内容。 Solr
Nutch
能做这种爬行吗?又是
浏览 1
提问于2015-08-28
得票数 0
1
回答
基于Sharepoint声明
的
身份验证
与传统
身份验证
、
、
我有2个sharepoint
网站
运行在一个sharepoint安装。一个站点启用了基于声明
的
身份验证
,另一个站点启用了经典
身份验证
。这两个站点也都
使用
Kerberos。我正在
使用
ManifoldCF
连接到这些
网站
,以提取所有内容以及权限。
ManifoldCF
连接器连接到启用了经典
身份验证
的
站点,并按预期工作。但是,尝试爬行基于声明
的
网站
会生成401未经授权
浏览 2
提问于2013-08-27
得票数 0
2
回答
从
nutch
获取链接
、
我正在
使用
nutch
1.3来
抓取
一个
网站
。我想得到一个urls爬行
的
列表,以及来自一个页面的urls。有没有办法通过读取crawldb
或
linkdb来找出页面上
的
urls?在org.apache.
nutch
.parse.html
浏览 2
提问于2011-09-15
得票数 10
回答已采纳
2
回答
NUTCH
可以用来从电子商务
网站
获取数据吗?
、
、
、
我想从
网站
上获取数据。我想要易趣上不同商品
的
价格。我想把这些产品和它们
的
价格放在我
的
数据库里。纳奇在这里会有帮助吗?如果不是的话,我更喜欢哪种刮刀/爬行?
浏览 5
提问于2014-06-17
得票数 0
回答已采纳
1
回答
如何
将Apache
Nutch
配置为忽略某些url模式
我正在
使用
Apache
Nutch
爬行一个
网站
。在爬行时,我希望
nutch
忽略多个url模式,如 on..., on..等。我知道
如何
配置regex-urlfilter.txt文件来
抓取
特定
的
url。 但我不知道
如何
配置
nutch
忽略某些url模式?
浏览 1
提问于2013-07-10
得票数 0
回答已采纳
2
回答
crawler + elasticsearch集成
、
、
、
我不能找出,
如何
抓取
网站
和索引数据到elasticsearch。我设法在组合
nutch
+solr中做到了这一点,并且由于
nutch
应该能够从1.8版导出数据直接到elasticsearch (),所以我再次尝试
使用
nutch
。然而,我并没有成功。在尝试调用我得到了:我并不坚持
浏览 0
提问于2014-11-26
得票数 2
回答已采纳
1
回答
抓取
和
抓取
数百万个
网站
我们能不能
使用
nutch
1.10来
抓取
几百万个数轮
的
网站
?我有一个文件,其中
的
url列表需要2‘s。
浏览 1
提问于2015-07-09
得票数 0
1
回答
使用
apache
nutch
对solr中
的
结构进行索引
、
、
、
、
在一个二手车销售商
网站
上有成千上万
的
汽车广告,这是一个典型
的
广告-> 标题,描述,汽车里程,电源简历(Hp),而不是整个页面, 我
使用
nutch
,因为它与solr有很好
的
集成,但
nutch
已经准备好
抓取
一切,在插件方面没有找到一个好
的
来解
浏览 0
提问于2016-08-02
得票数 0
1
回答
如何
在java应用程序中
使用
Nutch
?
、
、
我想在我
的
java应用程序中
使用
Nutch
从一个
网站
抓取
pdf链接进行分析,我
如何
在我
的
java应用程序中
使用
Nutch
来实现呢?我能举个例子吗?
浏览 5
提问于2014-11-04
得票数 4
1
回答
nutch
爬行被卡在旋转等待
或
活动。
如何
减少取货周期?
、
、
我正在
使用
Nutch
2.1和爬行一个
网站
。问题是,爬行器一直显示
抓取
url、旋量/活动,而且由于
抓取
花费了大量时间,所以到mysql
的
连接会超时。
如何
减少每次获取
的
次数,这样mysql就不会得到超时??在
nutch
中是否有这样
的
设置:只获取100
或
500个urls,然后解析并存储到mysql,然后再获取下一个100
或
500个urls?org.apache.hadoop.m
浏览 5
提问于2013-01-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Cloudera Manager用户角色
手把手教你写网络爬虫3:开源爬虫框架对比
Sec快速指南:基本身份验证,SAML,密钥,OAuth,JWT和tokens
SAML漏洞:不知你密码,也可合法登陆
最佳免费网络爬虫工具(4)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券