大数据和数据中台架构师

高级工程师

大数据架构师

大数据平台TBDS

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

1、集群整体性能降低。对TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明，虚拟机整体性能较物理机下降约40%左右；

TBDS大数据集群使用虚拟机的风险

ES高版本已经支持x-pack认证，TBDS的ES版本是6.4.2，默认已经安装了x-pack，下面是配置方法。

TBDS-Elasticsearch安全认证配置方法

把CDH集群的kafka数据同步到TBDS的kafka集群做测试，可以使用自带的mirrormaker工具同步

使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka

因为datax工具本身无法传入认证参数，所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。

datax工具在TBDS上同步数据方法

本文转自：http://www.txrjy.com/thread-1082341-1-1.html

20年通信&互联网&IT行业大变迁

目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法，使用以下方法可以保障在mysql中存储的是NULL，导入到HIVE表后也是NULL

mysql导入hive的NULL值处理方案

导语：本身TBDS平台不提供sqoop组件，若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台，需要单独部署sqoop组件。

在TBDS部署sqoop组件及抽取数据至hive的使用方法

TBDS中的Shell任务工作流可通过shell脚本调用python，也可以直接调用python脚本，以下为两种方法介绍。

TBDS工作流调度python脚本示例及排错方法

DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。 它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝

小文件数过多导致distcp迁移报错

客户在用hive sql做几张表的组合分析，使用mr引擎。 因为其中有一张表超过5万个分区，数据总量超过8千亿条，因此运行过程中出现失败，报错如下所示：

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000

腾讯云大数据团队服务的某个大客户，hadoop集群超过300台服务器。因为大数据平台承载的业务程序非常多（每天超过5万次任务运行在yarn）、datanode的IO压力很大，在今天下午datanode出现大面积故障。通过日志查找，发现以下信息：

HDFS 线程参数DataXceiver 引发的故障

从上述报错，浏览社区没得到任何有价值的信息。通过查看hive的源码，也没有有效的信息。因此，我们需要查看hive的详细日志。

hive export报错找不到DistCpOptions类

随着大数据技术日趋成熟，行业生态愈发完善，腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中，PB级海量数据已经成为常态。笔者负责大数据技术支持的某个腾讯云大数据项目，单张数据表的行数超过万亿级、数据量PB级，而且还需要对万亿级数据表做表与表的多维分析。比如本文介绍的故障排查过程，客户提交的就是 “万亿级大表 join 普通表” 的海量数据关联多维分析任务。这类任务，如果不对大数据平台进行优化，往往很容易运行失败，而且排查过程异常艰难。

Hive万亿级表联合分析故障排查与优化过程

    本文将介绍如何利用kafka-reassign-partitions.sh命令增加主题的备份数量。

kafka增加topic的备份数量

根据常理判断，简单的 select * limit 不会造成内存溢出的。因此，我们用hive原生sql查询，发现不存在这个问题。

spark sql简单查询千亿级库表导致的问题

这次迁移算是TBDS集群的第一次完整迁移案例，包括用户的业务数据，平台应用，从项目启动到最后完成迁移差不多耗费了1个月的时间。

TBDS大数据集群迁移实践总结

腾讯云某客户的开发者反馈，大数据集群的hbase读写非常缓慢。我们使用测试程序，也复现该问题。因此，我们需要对hbase集群进行全面检测。

hbase因为数据空洞故障导致读写缓慢

   近期腾讯云某家大客户的hbase master一直无法启动，经过仔细诊断之后发现是由于hbase的WAL文件非常多（达到15TB），导致hbase在zk的节点（存储WAL文件信息的节点）超过4096*1024 默认大小，无法正常提供服务。因此，hbase master无法正常启动。通过增加zk节点的大小参数，并且优化WAL文件，最终解决该问题。

WAL文件过多导致hbase master无法启动

 最近发现hiveserver2（本质上是提供jdbc连接的driver进程）经常发生严重卡死故障，而且卡死分成两种现象。

Hiveserver2 性能优化与GC优化

删除kafka topic及其数据，严格来说并不是很难的操作。但是，往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者，发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景，总结一套删除kafka topic的标准操作方法。

kafka如何彻底删除topic及数据

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

腾讯云开发者社区推出了大数据平台TBDS专栏，为你提供了大数据平台TBDS的相关文章，致力于帮助开发者快速成长与发展。

大数据平台TBDS

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐