大数据平台TBDS

完全兼容hadoop体系的商业化、完备化和企业化大数据平台
17 篇文章
44 人订阅

全部文章

mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000

客户在用hive sql做几张表的组合分析,使用mr引擎。 因为其中有一张表超过5万个分区,数据总量超过8千亿条,因此运行过程中出现失败,报错如下所示:

1032
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

HDFS 线程参数DataXceiver 引发的故障

腾讯云大数据团队服务的某个大客户,hadoop集群超过300台服务器。因为大数据平台承载的业务程序非常多(每天超过5万次任务运行在yarn)、datanode的...

3106
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

hive export报错找不到DistCpOptions类

从上述报错,浏览社区没得到任何有价值的信息。通过查看hive的源码,也没有有效的信息。因此,我们需要查看hive的详细日志。

1092
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Hive万亿级表联合分析故障排查与优化过程

随着大数据技术日趋成熟,行业生态愈发完善,腾讯云大数据团队服务的大客户越来越多。在笔者服务的众多大客户之中,PB级海量数据已经成为常态。笔者负责大数据技术支持的...

3944
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

kafka增加topic的备份数量

本文将介绍如何利用kafka-reassign-partitions.sh命令增加主题的备份数量。

3592
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

spark sql简单查询千亿级库表导致的问题

根据常理判断,简单的 select * limit 不会造成内存溢出的。因此,我们用hive原生sql查询,发现不存在这个问题。

4592
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

TBDS大数据集群迁移实践总结

这次迁移算是TBDS集群的第一次完整迁移案例,包括用户的业务数据,平台应用,从项目启动到最后完成迁移差不多耗费了1个月的时间。

4894
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

hbase因为数据空洞故障导致读写缓慢

腾讯云某客户的开发者反馈,大数据集群的hbase读写非常缓慢。我们使用测试程序,也复现该问题。因此,我们需要对hbase集群进行全面检测。

6246
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

WAL文件过多导致hbase master无法启动

近期腾讯云某家大客户的hbase master一直无法启动,经过仔细诊断之后发现是由于hbase的WAL文件非常多(达到15TB),导致hbase在zk的...

4073
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Hiveserver2 性能优化与GC优化

最近发现hiveserver2(本质上是提供jdbc连接的driver进程)经常发生严重卡死故障,而且卡死分成两种现象。

7549
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

kafka如何彻底删除topic及数据

删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者,发现都会偶然出现无法彻底删...

2.9K7
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Regionserver频繁挂掉故障处理实践

近期腾讯云的一家大客户频繁出现HBase regionserver 挂掉,影响业务正常使用。通过调整堆栈大小、gc优化、超时时间等都无法解决该问题。经过细致并综...

2K5
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

利用Flume 汇入数据到HBase:Flume-hbase-sink 使用方法详解

本文作者将会详细描述这两大类HBaseSinks 对应的三种序列化模式的使用方法。

1.8K7
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Flume-Hbase-Sink针对不同版本flume与HBase的适配研究与经验总结

导语:本文细致而全面地讲解使用flume输出数据到HBase的三种不同 Flume-Hbase-Sink 之间的差异性,以及技术细节。并且透彻而全面地总结了不同...

1.8K11
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

Hive 时间转换函数使用心得

Hive sql 与传统的 oracle 或者mysql 的时间转换函数有一些不同,对于想将传统数据库迁移到hdfs 用 hive sql 进行处理的任务,如何...

3.2K11
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

HDFS 2.x 磁盘间数据均衡的一种可行办法

当HDFS的datanode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况:

50910
mikealzhou

腾讯 · 大数据产品技术架构师 (已认证)

kafka数据迁移实践

本文重点介绍 kafka 的两类常见数据迁移方式:1、broker 内部不同数据盘之间的分区数据迁移;2、不同 broker 之间的分区数据迁移。

1.7K9

扫码关注云+社区