大数据平台TBDS-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据平台TBDS

完全兼容hadoop体系的商业化、完备化和企业化大数据平台

专栏成员

26

文章

152100

阅读量

130

订阅数

TBDS大数据集群使用虚拟机的风险

大数据处理套件 TBDS

1、集群整体性能降低。对TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明，虚拟机整体性能较物理机下降约40%左右；

2021-01-13

1.6K1

TBDS-Elasticsearch安全认证配置方法

大数据处理套件 TBDS Elasticsearch Service

ES高版本已经支持x-pack认证，TBDS的ES版本是6.4.2，默认已经安装了x-pack，下面是配置方法。

2020-12-18

2.9K0

使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka

kafka 大数据处理套件 TBDS 专用宿主机开源

把CDH集群的kafka数据同步到TBDS的kafka集群做测试，可以使用自带的mirrormaker工具同步

2020-12-07

8630

datax工具在TBDS上同步数据方法

大数据处理套件 TBDS

因为datax工具本身无法传入认证参数，所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。

2020-12-07

1.5K0

20年通信&互联网&IT行业大变迁

本文转自：http://www.txrjy.com/thread-1082341-1-1.html

2019-08-02

1.4K0

关注专栏作者，随时接收最新技术干货

大数据和数据中台架构师

腾讯高级工程师

腾讯科技（深圳）有限公司大数据架构师

mysql导入hive的NULL值处理方案

hadoop hive 云数据库 SQL Server 大数据处理套件 TBDS

目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法，使用以下方法可以保障在mysql中存储的是NULL，导入到HIVE表后也是NULL

2019-07-02

4.7K0

在TBDS部署sqoop组件及抽取数据至hive的使用方法

大数据处理套件 TBDS hadoop

导语：本身TBDS平台不提供sqoop组件，若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台，需要单独部署sqoop组件。

2019-07-02

2K0

TBDS工作流调度python脚本示例及排错方法

大数据处理套件 TBDS python shell

TBDS中的Shell任务工作流可通过shell脚本调用python，也可以直接调用python脚本，以下为两种方法介绍。

2019-07-02

2.2K4

小文件数过多导致distcp迁移报错

大数据 hadoop yarn 大数据处理套件 TBDS

DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝

2019-06-04

2.8K0

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000

sql hive mapreduce

客户在用hive sql做几张表的组合分析，使用mr引擎。因为其中有一张表超过5万个分区，数据总量超过8千亿条，因此运行过程中出现失败，报错如下所示：

2019-05-18

3.3K0

HDFS 线程参数DataXceiver 引发的故障

yarn node.js linux hive 大数据

腾讯云大数据团队服务的某个大客户，hadoop集群超过300台服务器。因为大数据平台承载的业务程序非常多（每天超过5万次任务运行在yarn）、datanode的IO压力很大，在今天下午datanode出现大面积故障。通过日志查找，发现以下信息：

2019-03-15

13.5K4

hive export报错找不到DistCpOptions类

hive java 单片机 hadoop 面向对象编程

从上述报错，浏览社区没得到任何有价值的信息。通过查看hive的源码，也没有有效的信息。因此，我们需要查看hive的详细日志。

2019-03-14

2.3K0

Hive万亿级表联合分析故障排查与优化过程

sql yarn node.js 大数据 hive

随着大数据技术日趋成熟，行业生态愈发完善，腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中，PB级海量数据已经成为常态。笔者负责大数据技术支持的某个腾讯云大数据项目，单张数据表的行数超过万亿级、数据量PB级，而且还需要对万亿级数据表做表与表的多维分析。比如本文介绍的故障排查过程，客户提交的就是 “万亿级大表 join 普通表” 的海量数据关联多维分析任务。这类任务，如果不对大数据平台进行优化，往往很容易运行失败，而且排查过程异常艰难。

2019-03-10

3K0

kafka增加topic的备份数量

kafka bash bash 指令

本文将介绍如何利用kafka-reassign-partitions.sh命令增加主题的备份数量。

2018-12-26

2K1

spark sql简单查询千亿级库表导致的问题

根据常理判断，简单的 select * limit 不会造成内存溢出的。因此，我们用hive原生sql查询，发现不存在这个问题。

2018-12-19

5.1K0

TBDS大数据集群迁移实践总结

大数据处理套件 TBDS 云数据迁移迁移数据库云数据库 SQL Server

这次迁移算是TBDS集群的第一次完整迁移案例，包括用户的业务数据，平台应用，从项目启动到最后完成迁移差不多耗费了1个月的时间。

2018-12-13

3.9K0

hbase因为数据空洞故障导致读写缓慢

https ruby on rails 网络安全大数据 hbase

腾讯云某客户的开发者反馈，大数据集群的hbase读写非常缓慢。我们使用测试程序，也复现该问题。因此，我们需要对hbase集群进行全面检测。

2018-10-29

7.1K1

WAL文件过多导致hbase master无法启动

hbase TDSQL MySQL 版 bash bash 指令存储

近期腾讯云某家大客户的hbase master一直无法启动，经过仔细诊断之后发现是由于hbase的WAL文件非常多（达到15TB），导致hbase在zk的节点（存储WAL文件信息的节点）超过4096*1024 默认大小，无法正常提供服务。因此，hbase master无法正常启动。通过增加zk节点的大小参数，并且优化WAL文件，最终解决该问题。

2018-10-10

2.7K0

Hiveserver2 性能优化与GC优化

hive jdbc spark

最近发现hiveserver2（本质上是提供jdbc连接的driver进程）经常发生严重卡死故障，而且卡死分成两种现象。

2018-06-19

6K6

kafka如何彻底删除topic及数据

zookeeper 存储

删除kafka topic及其数据，严格来说并不是很难的操作。但是，往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者，发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景，总结一套删除kafka topic的标准操作方法。

2018-05-19

20.7K13

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态