首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Apache Nutch未抓取in-links中的所有网站

Apache Nutch未抓取in-links中的所有网站
EN

Stack Overflow用户
提问于 2018-05-08 15:30:01
回答 1查看 291关注 0票数 0

我已经使用Hadoop/Hbase生态系统配置了Apache Nutch 2.3.1。以下是配置信息。

代码语言:javascript
复制
<configuration>

<property>
  <name>db.score.link.internal</name>
  <value>5.0</value>
</property>

<property>
  <name>enable.domain.check</name>
  <value>true</value>
</property>

<property>
  <name>http.timeout</name>
  <value>30000</value>
</property>

<property>
  <name>generate.max.count</name>
  <value>200</value>
</property>

<property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
</property>


<property>
    <name>http.agent.name</name>
    <value>My Private Spider Bot</value>
</property>

<property>
    <name>http.robots.agents</name>
    <value>My Private Spider Bot</value>
    </property>
<property>
        <name>plugin.includes</name>
    <value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>    
</property>

</configuration>

有3个计算节点运行Nutch作业。现在的问题是,在使用5000个域名作为起始种子之后,nutch只获取了很少的域名,而且还有许多新的域名,其中只获取了一个文档。我希望nutch应该fairley获取所有的域。另外,我给inlink打了5分,但我的推文显示,这个属性根本没有影响。

我有后处理爬行数据,并发现在数据库(hbase)中总共有14000个域名,其中超过50%的域名没有被Nutch抓取(他们的文档有抓取状态代码0x01 )。为什么会这样。如何改变nutch来考虑新的域名,也就是说,它应该以某种方式对所有的域名公平获取。

EN

回答 1

Stack Overflow用户

发布于 2018-06-15 05:10:41

你是怎么爬行的?bin/crawl有一个确定深度的功能(链接如下)。你可以通过使用带有参数的bin/nutch来获得好的结果,根据你想要的网站大约总的大小,你应该至少每3000页运行一次。这意味着如果您有18000个页面(包括链接检索的页面),您将运行它1800/3= 6次以获得完整的数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50228188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档