问Apache Nutch未抓取in-links中的所有网站
EN

Stack Overflow用户

提问于 2018-05-08 15:30:01

回答 1查看 291关注 0票数 0

我已经使用Hadoop/Hbase生态系统配置了Apache Nutch 2.3.1。以下是配置信息。

<configuration>

<property>
  <name>db.score.link.internal</name>
  <value>5.0</value>
</property>

<property>
  <name>enable.domain.check</name>
  <value>true</value>
</property>

<property>
  <name>http.timeout</name>
  <value>30000</value>
</property>

<property>
  <name>generate.max.count</name>
  <value>200</value>
</property>

<property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
</property>


<property>
    <name>http.agent.name</name>
    <value>My Private Spider Bot</value>
</property>

<property>
    <name>http.robots.agents</name>
    <value>My Private Spider Bot</value>
    </property>
<property>
        <name>plugin.includes</name>
    <value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>    
</property>

</configuration>

有3个计算节点运行Nutch作业。现在的问题是，在使用5000个域名作为起始种子之后，nutch只获取了很少的域名，而且还有许多新的域名，其中只获取了一个文档。我希望nutch应该fairley获取所有的域。另外，我给inlink打了5分，但我的推文显示，这个属性根本没有影响。

我有后处理爬行数据，并发现在数据库(hbase)中总共有14000个域名，其中超过50%的域名没有被Nutch抓取(他们的文档有抓取状态代码0x01 )。为什么会这样。如何改变nutch来考虑新的域名，也就是说，它应该以某种方式对所有的域名公平获取。

web-crawler

nutch

nutch2

回答 1

Stack Overflow用户

发布于 2018-06-15 05:10:41

你是怎么爬行的？bin/crawl有一个确定深度的功能(链接如下)。你可以通过使用带有参数的bin/nutch来获得好的结果，根据你想要的网站大约总的大小，你应该至少每3000页运行一次。这意味着如果您有18000个页面(包括链接检索的页面)，您将运行它1800/3= 6次以获得完整的数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50228188

复制

相似问题

问Apache Nutch未抓取in-links中的所有网站
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Nutch未抓取in-links中的所有网站EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Nutch未抓取in-links中的所有网站
EN