大数据-Hadoop、Spark-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据-Hadoop、Spark

专栏成员

88

文章

145460

阅读量

39

订阅数

spark python kubernetes kerberos 大数据

Spark Standalone on Kubernetes (via k8s community) SPIP: SPARK-18278 https://github.com/apache-spark-on-k8s/spark (fork)

2021-01-26

6240

FsImage Analyse Tool

yarn node.js 大数据 hadoop bash

该工具提供自动化解析HDFS集群FSImage文件，并解析成文本文件存储在HDFS中；解析后的信息通过Hive映射成表，并通过Hive进行相关信息统计，使用有数生成相关报表。

2021-01-08

8941

ReadProcessor read fields took xx ms

node.js hadoop 大数据 linux

cd /opt/log/xdp/hadoop-hdfs/hdfs_datanode

2021-01-08

9810

HBase HDFS的一次升级问题

hbase TDSQL MySQL 版大数据

升级core-2过程中,高风险节点core-5(内存水位解决临界值)发生宕机，造成业务写入抛错， core-5宕机恢复流程完成，hbase服务恢复，Flink任务Failover后自动消费积压的kafka数据。

2020-10-29

5450

Presto Hive连接器

hive 大数据存储 hadoop 缓存

Presto仅使用前两个组件：数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。

2020-10-29

2.1K0

Flink SQL 写入 Hive表的性能问题

hive flink 大数据

翻阅Flink的PR，十几天前，阿里Flink的开发同学已经注意到了这个问题，我们将之吸收到测试环境，编译替换lib下jar包，重新测试，性能确实up了，单并发升至5W每秒，上游节点才稍微有背压。 [FLINK-19121][hive] Avoid accessing HDFS frequently in HiveBulkWriterFactory

2020-09-28

3.2K0

HBase基准测试

hadoop 大数据 node.js hbase TDSQL MySQL 版

su hdfs ./hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1

2020-09-03

1.3K0

hbase TDSQL MySQL 版大数据 javascript 编程算法

与Phoenix带来的SQL on HBase易用性相比，它带来的负面影响也是巨大的，大表Join大表，或者全表OrderBy等消耗的资源随数据量呈至少线性增长，并发直线下降，甚至低到只有百级别，扩容带来的收益下降很快。另外，Phoenix表查询通过多个独立协调器（Query Server），互相不管对方，玩命占用HBase资源，在高并发的大查询下就会容易造成HBase整个集群过载。而像Presto系统所有的请求都是走同一个协调器，可以总控资源使用，优雅的处理过载。让现有HBase集群聚焦在线KV Store，聚焦作为在线业务的温存储层。

2020-08-17

6750

头条大数据实践

大数据日志数据数据库数据分析 spark

一、除了日志数据，关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上，用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式，有效的提升了抓取速度，突破了单机瓶颈。

2018-12-06

6850

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态