前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >eclipse下配置Heritrix1.14.4

eclipse下配置Heritrix1.14.4

作者头像
forrestlin
发布2018-05-23 17:38:21
8180
发布2018-05-23 17:38:21
举报
文章被收录于专栏:蜉蝣禅修之道

Heritrix是一个强大的开源的爬虫工具,现在已经更新到3.1.0,但是最新版本好像文档不齐全,而且改变很大,所以这次还是用老版本1.14.4

要在eclipse下配置Heritrix,我们需要以下步骤:

1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP 包;可以在crawler.archive.org/downloads.html下载

2.在Eclipse下新建Java项目,取名Heritrix;

3.复制SRC包下面src/java文件夹下org、com、st三个文件夹到src目录下(即D:\eclipse\Heritrix\src);

4.复制SRC包下src下resources文件夹到项目根目录;复制conf到项目根目录。

5.复制SRC包下lib文件夹到项目根目录;

6.复制ZIP包下webapps文件夹到项目根目录;

7.在Eclipse中修改项目conf下heritrix.properties文件( @VERSION@ 改为 1.14.4     heritrix.cmdline.admin =admin:admin   heritrix.cmdline.port = 9090 

8.在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!

9.切换到eclipse窗口下,刷新下工程,发现会报错找不到类sun.net.www.protocol.file.FileURLConnection。这是因为sun包是受保护的包,默认只有sun    公司的软件才能使用。Eclipse会报错,把对保护使用waring就可以了。修改方式:

   Windows ->Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated andtrstricted API -> Forbidden reference (access rules): ->    change to warning

然后刷新就OK了。

10.在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置 ->classpath->点击右边的ADVANCED->ADDFOLDER->选择根目录下的conf->RUN 即可

控制台出现一下信息说明已成功. 07:33:40.174EVENT  Starting Jetty/4.2.23 07:33:40.215 WARN!! Delete existing temp dirC:\Users\gztzho\AppData\Local\Temp\Jetty_127_0_0_1_8080__ forWebApplicationContext[/,jar:file:/D:/workspace/MyHeritrix/webapps/admin.war!/] 07:33:40.294 EVENT  StartedWebApplicationContext[/,Heritrix Console] 07:33:40.358 EVENT  StartedSocketListener on 127.0.0.1:8080 07:33:40.359 EVENT  Startedorg.mortbay.jetty.Server@a01335 Heritrix version: 1.14.4 然后在浏览器里输入http://localhost:9090既可以访问了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2013年04月11日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档