大快DKH大数据网络爬虫安装教程(详细图文步骤)

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

大数据网络爬虫安装教程
大数据网络爬虫安装教程

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

大数据网络爬虫安装教程

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

大数据网络爬虫安装教程

Redis相关配置看如下界面:

大数据网络爬虫安装教程

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

大数据网络爬虫安装教程

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

大数据网络爬虫安装教程

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

大数据网络爬虫安装教程

使用cd  crawler  命令进入  crawler 文件夹下

大数据网络爬虫安装教程

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

大数据网络爬虫安装教程

5、分发爬虫文件

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

大数据网络爬虫安装教程

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

大数据网络爬虫安装教程

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

大数据网络爬虫安装教程

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

大数据网络爬虫安装教程

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SpringBoot 核心技术

第十六章:使用Redis作为SpringBoot项目数据缓存

2382
来自专栏Java成神之路

Java_脚本引擎_02_在Idea中进行Nashorn的Debug

这一节我们来看下怎么在idea中进行Nashorn的Debug ,又或者说怎么在Idea中进行js的Debug

1524
来自专栏用户2442861的专栏

git以及github的使用(1)

http://my.oschina.net/bxxfighting/blog/378196

611
来自专栏有困难要上,没有困难创造困难也要上!

Webpack2入门

3037
来自专栏地方网络工作室的专栏

Vue2+VueRouter2+Webpack+Axios 构建项目实战2017重制版(三)认识项目所有文件

Vue2+VueRouter2+Webpack+Axios 构建项目实战2017重制版(三)认识项目所有文件 在《Vue2+VueRouter2+Webpack...

2155
来自专栏前端杂货铺

解决ajax跨域请求 (总结)

ajax跨域请求,目前已用几种方法实现: 1)用原生js的xhr对象实现。                var url="http://freegeoip....

3048
来自专栏FH云彩

不要插件!轻松整合WordPress与CDN加速服务

6788
来自专栏SpringBoot 核心技术

第二十五章:SpringBoot添加支持CORS跨域访问

2294
来自专栏nummy

sphinx入门指南【2】 toctree指令详解

reST本身并不支持同时与多个文档进行交互,或者说将一个文档保存到多个文件中。Sphinx提供了自定义指令toctree来支持实现这个功能。

1203
来自专栏Golang语言社区

【Golang语言社区】前端编程-手机端调试利器 - 总结与实践

一些调试工具 说起手机端调试,相比大家都不陌生。 由于手机浏览器没有像PC端浏览器一样有开发调试工具,所以一般手机端的调试都要借助于电脑,现在的调试方式通常有以...

4724

扫码关注云+社区

领取腾讯云代金券