如何使用ManifoldCF或nutch抓取具有SAML身份验证的网站？

、、、、

我正在尝试抓取一个网站，更具体地说是一个使用ManifoldCF的Google Site，它具有SAML身份验证，并将抓取的数据索引到Apache Solr中。但当我抓取网址，它给我的302重定向到登录页面，然后说RESPONSECODENOTINDEXABLE。我不确定我的身份验证是否正确。我使用的是Ses

浏览 9提问于2016-08-08得票数 18

1回答

在Apache Nutch中设置cookie标头

、

我想抓取一个特定的网站，其中使用cookies进行身份验证。我想在Apache Nutch提出的用于抓取站点的每个GET请求中设置cookie和用户代理信息。如何在配置中指定cookie信息，或者是否需要为此编写自定义插件？

浏览 0提问于2016-06-04得票数 1

3回答

如何重新爬行nutch

、

我使用的是集成了mysql的Nutch 2.1。我抓取了2个站点，Nutch成功地抓取了它们，并将数据存储到Mysql中。我使用Solr 4.0.0进行搜索。现在我的问题是，当我试图重新抓取一些网站，如trailer.apple.com或任何其他网站，它总是抓取最后抓取的网址。甚至我已经从seeds.txt文件

浏览 1提问于2012-12-14得票数 2

1回答

爬行请求身份验证的网站

、

我遵循这个链接，通过提供用户名和密码来爬行几个网站。realm="domain" /></credentials>(Ii)在nutch-site.xml和nutch-default.xml中定义httpclient属性。要求:我想抓取网站</

浏览 0提问于2014-08-07得票数 0

2回答

仅将Nutch限制为种子路径及其下面的网页

、、

我已经设置了Nutch 2.x来抓取少数几个多语域。我可以将Nutch限制为仅内链接，但不能限制子文件夹。例如，对于后续种子，我只想抓取/urdu中的URL，因为这个网站也包含其他语言的网页。现在，我如何配置或自定义Nutch来处理这些案例？

浏览 8提问于2020-09-17得票数 0

回答已采纳

1回答

使用apache nutch爬行基于身份验证的页面

、、

如何使用nutch抓取基于身份验证的页面？我已经在nutch-site.xml、nutch-default.xml和httpclient-auth.xml中完成了所有必需的设置。但是我的爬虫仍然不能抓取页面。有没有什么方法可以让我使用API密钥来帮助抓取？

浏览 1提问于2018-06-26得票数 0

2回答

Nutch和Http POST身份验证？

、

我被困在需要抓取有表单帖子的网站的地方。Nutch不支持这一点。我如何解决这个问题，这样我才能使用Nutch抓取这些网站？有没有更好的解决方案？

浏览 2提问于2012-07-06得票数 1

回答已采纳

1回答

如何使用nutch插件解析位于特定HTML标签中的内容？

我正在使用Nutch抓取网站，我想分析由Nutch抓取的html页面的特定部分。我知道我必须创建一个用于自定义解析的插件，因为Nutch提供的htmlparser插件会删除所有的html标签、css和javascript内容，只留下文本内容。我参考了这个博客，但我发现它是用来解析html标签的，而我想解析的是具有特定值的属性的h

浏览 3提问于2013-07-31得票数 7

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题：2) S

浏览 2提问于2012-09-06得票数 3

2回答

带有种子的Nutch爬网urls在范围内

、

一些站点具有www.___.com/id=1到www.___.com/id=1000 url模式。我如何使用nutch抓取网站。是否有任何wway提供种子以获取范围？？

浏览 1提问于2010-06-13得票数 0

1回答

使用Solr Nutch抓取特定数据

、、、

我看到一些像这样的搜索网站，我想知道他们是如何在price，image和description等其他网站上抓取数据并将其显示在他们的网站上的。我正在考虑使用Solr来索引数据，使用Nutch来抓取数据。我是网络爬行和索引的新手，到目前为止，我只能抓取网页的内容。 Solr Nutch能做这种爬行吗？又是

浏览 1提问于2015-08-28得票数 0

1回答

基于Sharepoint声明的身份验证与传统身份验证

、、

我有2个sharepoint网站运行在一个sharepoint安装。一个站点启用了基于声明的身份验证，另一个站点启用了经典身份验证。这两个站点也都使用Kerberos。我正在使用ManifoldCF连接到这些网站，以提取所有内容以及权限。ManifoldCF连接器连接到启用了经典身份验证的站点，并按预期工作。但是，尝试爬行基于声明的网站会生成401未经授权

浏览 2提问于2013-08-27得票数 0

2回答

从nutch获取链接

、

我正在使用nutch 1.3来抓取一个网站。我想得到一个urls爬行的列表，以及来自一个页面的urls。有没有办法通过读取crawldb或linkdb来找出页面上的urls？在org.apache.nutch.parse.html

浏览 2提问于2011-09-15得票数 10

回答已采纳

2回答

NUTCH可以用来从电子商务网站获取数据吗？

、、、

我想从网站上获取数据。我想要易趣上不同商品的价格。我想把这些产品和它们的价格放在我的数据库里。纳奇在这里会有帮助吗？如果不是的话，我更喜欢哪种刮刀/爬行？

浏览 5提问于2014-06-17得票数 0

回答已采纳

1回答

如何将Apache Nutch配置为忽略某些url模式

我正在使用Apache Nutch爬行一个网站。在爬行时，我希望nutch忽略多个url模式，如 on...， on..等。我知道如何配置regex-urlfilter.txt文件来抓取特定的url。但我不知道如何配置nutch忽略某些url模式？

浏览 1提问于2013-07-10得票数 0

回答已采纳

2回答

crawler + elasticsearch集成

、、、

我不能找出，如何抓取网站和索引数据到elasticsearch。我设法在组合nutch+solr中做到了这一点，并且由于nutch应该能够从1.8版导出数据直接到elasticsearch ()，所以我再次尝试使用nutch。然而，我并没有成功。在尝试调用我得到了：我并不坚持

浏览 0提问于2014-11-26得票数 2

回答已采纳

1回答

抓取和抓取数百万个网站

我们能不能使用nutch 1.10来抓取几百万个数轮的网站？我有一个文件，其中的url列表需要2‘s。

浏览 1提问于2015-07-09得票数 0

1回答

使用apache nutch对solr中的结构进行索引

、、、、

在一个二手车销售商网站上有成千上万的汽车广告，这是一个典型的广告-> 标题，描述，汽车里程，电源简历(Hp)，而不是整个页面，我使用nutch，因为它与solr有很好的集成，但nutch已经准备好抓取一切，在插件方面没有找到一个好的来解

浏览 0提问于2016-08-02得票数 0

1回答

如何在java应用程序中使用Nutch？

、、

我想在我的java应用程序中使用Nutch从一个网站抓取pdf链接进行分析，我如何在我的java应用程序中使用Nutch来实现呢？我能举个例子吗？

浏览 5提问于2014-11-04得票数 4

1回答

nutch爬行被卡在旋转等待或活动。如何减少取货周期？

、、

我正在使用Nutch2.1和爬行一个网站。问题是，爬行器一直显示抓取url、旋量/活动，而且由于抓取花费了大量时间，所以到mysql的连接会超时。如何减少每次获取的次数，这样mysql就不会得到超时？？在nutch中是否有这样的设置:只获取100或500个urls，然后解析并存储到mysql，然后再获取下一个100或500个urls？org.apache.hadoop.m

浏览 5提问于2013-01-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Nutch中设置cookie标头

如何重新爬行nutch

爬行请求身份验证的网站

仅将Nutch限制为种子路径及其下面的网页

使用apache nutch爬行基于身份验证的页面

Nutch和Http POST身份验证？

如何使用nutch插件解析位于特定HTML标签中的内容？

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

带有种子的Nutch爬网urls在范围内

使用Solr Nutch抓取特定数据

基于Sharepoint声明的身份验证与传统身份验证

从nutch获取链接

NUTCH可以用来从电子商务网站获取数据吗？

如何将Apache Nutch配置为忽略某些url模式

crawler + elasticsearch集成

抓取和抓取数百万个网站

使用apache nutch对solr中的结构进行索引

如何在java应用程序中使用Nutch？

nutch爬行被卡在旋转等待或活动。如何减少取货周期？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐