大数据平台TBDS

完全兼容hadoop体系的商业化、完备化和企业化大数据平台
31 篇文章
80.4K 次阅读
90 人订阅

全部文章

袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

TBDS大数据集群使用虚拟机的风险

1、集群整体性能降低。对TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明,虚拟机整体性能较物理机下降约40%左右;

10930
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

TBDS-Elasticsearch安全认证配置方法

ES高版本已经支持x-pack认证,TBDS的ES版本是6.4.2,默认已经安装了x-pack,下面是配置方法。

27480
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka

把CDH集群的kafka数据同步到TBDS的kafka集群做测试,可以使用自带的mirrormaker工具同步

12130
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

datax工具在TBDS上同步数据方法

因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。

12520
Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

快速构建基于Lambda框架大数据业务架构的TBDS Demo指南

本文介绍了如何快速的构建一个基于Lambda框架的大数据业务场景的TBDS Demo,用于展示如何利用其对应的工具在腾讯大数据平台上搭建出实时计算、多维分析、离...

83822
Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

腾讯专有云TBDS规划和自动化部署工具介绍

TBDS Autodeploy Tool是一款针对腾讯大数据套件(即TBDS)的规划和自动化部署工具,其基本功能包括:

8.8K4614
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

20年通信&互联网&IT行业大变迁

本文转自:http://www.txrjy.com/thread-1082341-1-1.html

65890
Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

基于OGG和Sqoop的TBDS接入方案系列-数据合并方案

本文档给出一个Demo示例,旨在说明如何将一张Oracle源表,通过Sqoop工具离线抽取全量数据到TBDS,以及通过OGG工具实时同步增量数据到TBDS之后,...

756120
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

mysql导入hive的NULL值处理方案

目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法,使用以下方法可以保障在mysql中存储的是NULL,导入到HIVE表后也是N...

1.7K70
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

在TBDS部署sqoop组件及抽取数据至hive的使用方法

导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。

54360
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

TBDS工作流调度python脚本示例及排错方法

TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。

476100
Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

基于OGG和Sqoop的TBDS接入方案系列-总体方案

腾讯大数据处理套件(Tencent Big Data Suite,以下简称TBDS)是一套针对私有化场景提供的全功能型大数据处理平台。为客户提供按需部署大数据处...

1.1K50
Aron 陈豪朗

腾讯 · 大数据AI产品架构师 (已认证)

基于OGG和Sqoop的TBDS接入方案系列-Sqoop与腾讯大数据套件TBDS的集成示例介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段,此案例介绍了一个利用Sqoop将数据从Oracle离线导入到腾讯大数据套件...

8.9K70
袁宋

腾讯科技(深圳)有限公司 · 大数据架构师 (已认证)

小文件数过多导致distcp迁移报错

DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列...

80960
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000

客户在用hive sql做几张表的组合分析,使用mr引擎。 因为其中有一张表超过5万个分区,数据总量超过8千亿条,因此运行过程中出现失败,报错如下所示:

1.2K50
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

HDFS 线程参数DataXceiver 引发的故障

腾讯云大数据团队服务的某个大客户,hadoop集群超过300台服务器。因为大数据平台承载的业务程序非常多(每天超过5万次任务运行在yarn)、datanode的...

5.4K135
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

hive export报错找不到DistCpOptions类

从上述报错,浏览社区没得到任何有价值的信息。通过查看hive的源码,也没有有效的信息。因此,我们需要查看hive的详细日志。

61140
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Hive万亿级表联合分析故障排查与优化过程

随着大数据技术日趋成熟,行业生态愈发完善,腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中,PB级海量数据已经成为常态。笔者负责大数据技术支持的...

1.2K70
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

kafka增加topic的备份数量

本文将介绍如何利用kafka-reassign-partitions.sh命令增加主题的备份数量。

71440
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

spark sql简单查询千亿级库表导致的问题

根据常理判断,简单的 select * limit 不会造成内存溢出的。因此,我们用hive原生sql查询,发现不存在这个问题。

2.1K40

扫码关注云+社区

领取腾讯云代金券