大快搜索数据爬虫技术实例安装教学篇

大快搜索数据爬虫技术实例安装教学篇

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

Redis相关配置看如下界面:

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹

使用cd crawler 命令进入 crawler 文件夹下

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

5、分发爬虫文件

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏软件开发 -- 分享 互助 成长

连续多行输入--C++ 中字符串标准输入的学习及实验(续篇)

编程中常常会用到连续多行输入的情况,如果事先知道要输入多少行的话,可以直接定义一个变量,然后用循环就可以实现了,但有时候事先并不知道,要输入多少行,于是就可以用...

4305
来自专栏NetCore

微信快速开发框架(三)-- 建立微信公众平台测试账号

为了测试我的快速微信开发框架,建议大家可以申请一个测试账号进行测试,稍后我也会开一个微信公众账号(不过目前很麻烦,还要我手拿身份证拍照,囧!) 第一步:您要有一...

2279
来自专栏技术专栏

Intellij IDEA 修改项目名称

3.6K2
来自专栏技术博客

DevExpress A field with the name '' was not found on the selected data source.

绑定控件时发现的错误,找了很久终于找到原因了,可能也是大家没注意的地方,希望能给大家带来一些帮助。

1682
来自专栏十月梦想

node实现静态资源目录(根目录)

前面也讲述了,nodejs没有web容器,访问使用/filename是无法访问文件的,需要通过路由判断然后fs.readFile读取文件才可以!

872
来自专栏IT派

Vue + Node + Mongodb 开发一个完整博客流程

前言 前段时间刚把自己的个人网站写完, 于是这段时间因为事情不是太多,便整理了一下,写了个简易版的博客系统。 服务端用的是 koa2框架 进行开发。 技术栈 ...

5445
来自专栏向治洪

Jar mismatch! Fix your dependencies

  在开发Android项目的时候,有时需要引用多个项目作为library。在引用项目的时候,有时会出现“Jar mismatch! Fix your depe...

1978
来自专栏向治洪

svn插件安装

以下是一些关键步骤: ? ? 其中http://subclipse.tigris.org/update_1.0.x是SVN插件的下载站点【subclipse是E...

2115
来自专栏python3

scrapy框架安装

1021
来自专栏咖啡的代码人生

IDEA/Git 设置多个push远程仓库或者同时提交多个push仓库

具体解决办法: 在隐藏文件.git 下有个config文件,打开,在最后一行添加以下信息 [remote "all"] url = https...

5547

扫码关注云+社区

领取腾讯云代金券