专栏首页hadoop学习笔记大快DKH大数据网络爬虫安装教程(详细图文步骤)
原创

大快DKH大数据网络爬虫安装教程(详细图文步骤)

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

大数据网络爬虫安装教程
大数据网络爬虫安装教程

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

大数据网络爬虫安装教程

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

大数据网络爬虫安装教程

Redis相关配置看如下界面:

大数据网络爬虫安装教程

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

大数据网络爬虫安装教程

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

大数据网络爬虫安装教程

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

大数据网络爬虫安装教程

使用cd  crawler  命令进入  crawler 文件夹下

大数据网络爬虫安装教程

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

大数据网络爬虫安装教程

5、分发爬虫文件

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

大数据网络爬虫安装教程

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

大数据网络爬虫安装教程

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

大数据网络爬虫安装教程

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

大数据网络爬虫安装教程

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 超实用hadoop虚拟机安装教程(附图文步骤)

    前两天看到有人留言问在什么情况下需要部署hadoop,我给的回答也很简单,就是在需要处理海量数据的时候才需要考虑部署hadoop。关于这个问题在很早之前的一篇分...

    IT小白龙
  • 全文检索Solr集成HanLP中文分词

    以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),...

    IT小白龙
  • HanLP中文分词Lucene插件

    基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。

    IT小白龙
  • Unity3D脚印3——Transfor

    Transform组件用于控制物体的位置,旋转和缩放,这里面涉及两个重点,一个是坐标系,这个包括局部坐标系和世界坐标系的关系,另外一个是父子节点,GameObj...

    py3study
  • 区块链101:什么是分散式应用程序?

    互联网用户无法完全控制他们在今天的网站上分享的数据。 Ethereum的独特之处在于它试图将区块链作为一种方法来纠正其设计者所认为的网络设计中有问题的部分。 这...

    首席架构师智库
  • CDN关键技术研究与应用 — 内容路由技术

    大家好,我是来自爱奇艺的白帆,视频业务是目前爱奇艺的主营业务,CDN是支撑视频分发的关键系统,视频流技术的发展和高清视频流的应用对视频分发提出了更高的要求。本次...

    LiveVideoStack
  • 产品资讯|腾讯优图FaceIn人脸核身

        优图FaceIn人脸核身,一种通过用户的一段自拍视频(或一张自拍照)与另外一张照片(可来源于身份证或事先留存自拍照)之间的1:1人脸验证和活体验证来确认...

    优图实验室
  • UX 设计之——商品详情页

    现如今,30%的在线购物行为发生在手机端上。 对于在线购物一事,所有用户都期望能够得到快速、流畅的体验。因此,在购物过程的每一个阶段,即使付之最小的努力都有可能...

    前朝楚水
  • 混合云的重要性及如何开始使用混合云

    导语 混合云可以让您在本地运行您的基础设施,可以按租赁、配置和扩展要求获得一些云功能,然后在准备就绪后可以将应用程序迁移到公共云(也可能是私有云)。实际上,出于...

    静一
  • C语言中的atan和atan2

    在C语言的math.h或C++中的cmath中有两个求反正切的函数atan(double x)与atan2(double y,double x)  他们返回的值...

    用户1653704

扫码关注云+社区

领取腾讯云代金券