团队致力于打造可靠、安全、易用的一站式大数据产品,为客户提供业界领先的大数据工具服务
分享团队到朋友圈
腾讯科技(深圳)有限公司 | 大数据架构师 (已认证)
1、集群整体性能降低。对TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明,虚拟机整体性能较物理机下降约40%左右;
ES高版本已经支持x-pack认证,TBDS的ES版本是6.4.2,默认已经安装了x-pack,下面是配置方法。
把CDH集群的kafka数据同步到TBDS的kafka集群做测试,可以使用自带的mirrormaker工具同步
因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。
如果用的TBDS513版本有自带的flink1.7
目前TBDS的hadoop版本是2.7.2,建议配置文件中使用该版本号进行匹配
本文转自:http://www.txrjy.com/thread-1082341-1-1.html
目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法,使用以下方法可以保障在mysql中存储的是NULL,导入到HIVE表后也是N...
导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。
TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。
开源和TBDS的kafka client分开来存放。
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列...
客户在用hive sql做几张表的组合分析,使用mr引擎。 因为其中有一张表超过5万个分区,数据总量超过8千亿条,因此运行过程中出现失败,报错如下所示:
实时、高效、稳定的数据可视化服务
安全、易用的一站式大数据处理平台