专栏首页TBDSTBDS大数据套件对接cos对象存储系统配置化实现
原创

TBDS大数据套件对接cos对象存储系统配置化实现

腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是一个可靠、安全、易用的大数据处理平台。TBDS 提供了多种高性能分析引擎方便您应对实时流数据处理、离线批数据分析、实时多维分析等场景的海量数据分析挑战。

腾讯TBDS大数据处理套件除了可以对原生HDFS分布式文件系统中的数据文件做大批量离线数据分析外,还可以支持对腾讯cos对象系统中的数据文件进行直接访问并进行大批量离线数据分析。本文将重点讲述腾讯TBDS套件如何与cos对象系统相结合,让cos对象存储系统充当TBDS中的sprak、hive等数据分析组件的底层文件系统,实现spark、hive访问cos对象系统像访问本地的HDFS系统一样进行数据分析的集成配置化方法。

TBDS组件集成cos对象系统的配置流程如下:

第一步:在cos对象存储系统官网下载hadoop-cos插件工具,下载地址如下:https://cloud.tencent.com/document/product/436/6884

第二步:登录TBDS部署Portal Web的机器,/data/tools/目录下有一个tbds-bootstrap.sh的脚本工具,该工具可以用来向整个TBDS集群进行文件同步。利用下面的命令,将cos_hadoop_api-5.2.5.jar和hadoop-cos-2.7.2.jar同步到TBDS集群的所有机器的/usr/hdp/2.2.0.0-2041/hadoop/lib/目录下。(注意:如果/usr/hdp/2.2.0.0-2041/hadoop/lib/目录下已经存在其他版本的hadoop-cos插件工具,必须先删除)

在/data/tools/目录下执行命令:

./tbds-bootstrap.sh run 'rm -rf /usr/hdp/2.2.0.0-2041/hadoop/lib/*cos*'(删除已有cos插件)
./tbds-bootstrap.sh push /data/tools/cos_hadoop_api-5.2.5.jar /usr/hdp/2.2.0.0-2041/hadoop/lib/
./tbds-bootstrap.sh push /data/tools/hadoop-cos-2.7.2.jar /usr/hdp/2.2.0.0-2041/hadoop/lib/

第三步:登录Portal Web界面,访问地址http://portal-web:8088/#/main/services/HDFS/summary

添加hdfs相关的配置,配置文件为core-site.xml文件。

点击配置,在下方找到自定义配置core-site

自定义配置core-site中添加如下配置项:

第四步:配置完成后重启HDFS组件,重启需要等一段时间。

第五步:待重启HDFS完成后,测试hadoop命令行访问cos对象系统是否成功。能够正常访问到cos对象中的文件,即代表hdfs已经配置成功。

第六步:使用spark访问cos对象中的文件对象--在提交spark任务时使用—jars指定cos插件提交指定的任务即可。

提交示例如下:

./spark-submit --class org.apache.spark.examples.JavaWordCount
 --master yarn-client --jars /usr/hdp/2.2.0.0-2041/hadoop/share/hadoop/tools/lib/cos_hadoop_api-5.2.5.jar,
/usr/hdp/2.2.0.0-2041/hadoop/share/hadoop/tools/lib/hadoop-cos-2.7.2.jar

第七步:TBDS中的hive默认使用TEZ计算引擎,故如果使用hive访问cos对象文件,需要在TEZ中加载cos插件。具体如下:

在tez-site配置项tez.cluster.additional.classpath.prefix中添加:

tez.cluster.additional.classpath.prefix=/usr/hdp/${hdp.version}/hadoop/lib/hadoop-lzo-0.6.0.${hdp.version}.jar:/etc/hadoop/conf/secure:/usr/hdp/2.2.0.0-2041/hadoop/share/hadoop/tools/lib/cos_hadoop_api-5.2.5.jar:/usr/hdp/2.2.0.0-2041/hadoop/share/hadoop/tools/lib/hadoop-cos-2.7.2.jar

第7步:重启tez组件即可。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • centos7 hadoop 集群安装配置

    转载请务必注明原创地址为:http://dongkelun.com/2018/04/05/hadoopClusterConf/

    董可伦
  • redis分布式锁加锁删除

    下面的分布式锁分别是利用JedisPool 和Redisson 实现的,可以选择行使用。其中方法的命名匹配的为一类,希望可以帮助大家!

    gfu
  • [日常] Go语言圣经前言

    https://books.studygolang.com/gopl-zh/ go语言圣经

    陶士涵
  • 分布式计算框架MapReduce

    MapReduce源自Google的MapReduce论文,论文发表于2004年12月。Hadoop MapReduce可以说是Google MapReduce...

    端碗吹水
  • 你真的了解Override吗,属性能够被重写吗?

    最近想到了一个问题,Java的属性能够被Override吗?首先让我们看一下下面这个继承的例子。

    三哥
  • 晴窗闲谈 | 从Go语言的设计学习设计决策

    阅读了Rob Pike撰写的《Go在谷歌:以软件工程为目的的语言设计》,颇多感触。这些感触并不在于语言层面,或者Go这门语言的语法以及底层实现;而是因为语言设计...

    张逸
  • 无人驾驶系统安全

    用户1737318
  • 你真的了解Override吗,属性能够被重写吗?

    最近想到了一个问题,Java的属性能够被Override吗?首先让我们看一下下面这个继承的例子。

    三哥
  • Hadoop(1)——理论简介

    官方地址:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDe...

    羊羽shine
  • node命令行小工具开发【翻译小工具】

    执行node hi.js我们可以看到终端输出‘hi’。。当然这并不是我们要的命令行工具,我们需要直接运行hi就可出现结果

    前端博客 : alili.tech

扫码关注云+社区

领取腾讯云代金券