首页
学习
活动
专区
工具
TVP
发布

大数据平台TBDS

完全兼容hadoop体系的商业化、完备化和企业化大数据平台
专栏作者
26
文章
146703
阅读量
130
订阅数
TBDS大数据集群使用虚拟机的风险
1、集群整体性能降低。对TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明,虚拟机整体性能较物理机下降约40%左右;
袁宋
2021-01-13
1.5K1
TBDS-Elasticsearch安全认证配置方法
ES高版本已经支持x-pack认证,TBDS的ES版本是6.4.2,默认已经安装了x-pack,下面是配置方法。
袁宋
2020-12-18
2.7K0
使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka
把CDH集群的kafka数据同步到TBDS的kafka集群做测试,可以使用自带的mirrormaker工具同步
袁宋
2020-12-07
8260
datax工具在TBDS上同步数据方法
因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。
袁宋
2020-12-07
1.4K0
20年通信&互联网&IT行业大变迁
本文转自:http://www.txrjy.com/thread-1082341-1-1.html
mikealzhou
2019-08-02
1.4K0
关注专栏作者,随时接收最新技术干货
mikealzhou
大数据和数据中台架构师
傻二哥
腾讯高级工程师
袁宋
腾讯科技(深圳)有限公司大数据架构师
mysql导入hive的NULL值处理方案
目前提供两种方法解决数据库中的字段值为NULl导入到HIVE中后变成空字符串的方法,使用以下方法可以保障在mysql中存储的是NULL,导入到HIVE表后也是NULL
袁宋
2019-07-02
4.5K0
在TBDS部署sqoop组件及抽取数据至hive的使用方法
导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。
袁宋
2019-07-02
1.9K0
TBDS工作流调度python脚本示例及排错方法
TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。
袁宋
2019-07-02
2K4
小文件数过多导致distcp迁移报错
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝
袁宋
2019-06-04
2.7K0
mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000
客户在用hive sql做几张表的组合分析,使用mr引擎。 因为其中有一张表超过5万个分区,数据总量超过8千亿条,因此运行过程中出现失败,报错如下所示:
mikealzhou
2019-05-18
3.2K0
HDFS 线程参数DataXceiver 引发的故障
腾讯云大数据团队服务的某个大客户,hadoop集群超过300台服务器。因为大数据平台承载的业务程序非常多(每天超过5万次任务运行在yarn)、datanode的IO压力很大,在今天下午datanode出现大面积故障。通过日志查找,发现以下信息:
mikealzhou
2019-03-15
13K4
hive export报错找不到DistCpOptions类
从上述报错,浏览社区没得到任何有价值的信息。通过查看hive的源码,也没有有效的信息。因此,我们需要查看hive的详细日志。
mikealzhou
2019-03-14
2.2K0
Hive万亿级表联合分析故障排查与优化过程
随着大数据技术日趋成熟,行业生态愈发完善,腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中,PB级海量数据已经成为常态。笔者负责大数据技术支持的某个腾讯云大数据项目,单张数据表的行数超过万亿级、数据量PB级,而且还需要对万亿级数据表做表与表的多维分析。比如本文介绍的故障排查过程,客户提交的就是 “万亿级大表 join 普通表” 的海量数据关联多维分析任务。这类任务,如果不对大数据平台进行优化,往往很容易运行失败,而且排查过程异常艰难。
mikealzhou
2019-03-10
2.9K0
kafka增加topic的备份数量
本文将介绍如何利用kafka-reassign-partitions.sh命令增加主题的备份数量。
mikealzhou
2018-12-26
2K1
spark sql简单查询千亿级库表导致的问题
根据常理判断,简单的 select * limit 不会造成内存溢出的。因此,我们用hive原生sql查询,发现不存在这个问题。
mikealzhou
2018-12-19
4.9K0
TBDS大数据集群迁移实践总结
这次迁移算是TBDS集群的第一次完整迁移案例,包括用户的业务数据,平台应用,从项目启动到最后完成迁移差不多耗费了1个月的时间。
mikealzhou
2018-12-13
3.7K0
hbase因为数据空洞故障导致读写缓慢
腾讯云某客户的开发者反馈,大数据集群的hbase读写非常缓慢。我们使用测试程序,也复现该问题。因此,我们需要对hbase集群进行全面检测。
mikealzhou
2018-10-29
6.9K1
WAL文件过多导致hbase master无法启动
近期腾讯云某家大客户的hbase master一直无法启动,经过仔细诊断之后发现是由于hbase的WAL文件非常多(达到15TB),导致hbase在zk的节点(存储WAL文件信息的节点)超过4096*1024 默认大小,无法正常提供服务。因此,hbase master无法正常启动。通过增加zk节点的大小参数,并且优化WAL文件,最终解决该问题。
mikealzhou
2018-10-10
2.6K0
Hiveserver2 性能优化与GC优化
最近发现hiveserver2(本质上是提供jdbc连接的driver进程)经常发生严重卡死故障,而且卡死分成两种现象。
mikealzhou
2018-06-19
5.9K6
kafka如何彻底删除topic及数据
删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者,发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景,总结一套删除kafka topic的标准操作方法。
mikealzhou
2018-05-19
20.3K13
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档