暴走大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏成员

298

文章

586230

阅读量

100

订阅数

Apache Iceberg源码分析：数据存储格式

html javascript 分布式存储

Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象，在存储上能够对接当前主流的HDFS，S3文件系统并且支持多种文件存储格式，例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合，Iceberg可以与多种计算引擎对接，目前社区已经支持Spark读写Iceberg、Impala/Hive查询Iceberg。本文基于Apache Iceberg 0.10.0，介绍Iceberg文件的组织方式以及不同文件的存储格式。

大数据真好玩

2021-11-16

2.1K0

Flink集成Iceberg小小实战

hive html flink sql 大数据

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

大数据真好玩

2021-07-30

5.7K1

Yarn运行中的任务如何终止？

hadoop https 网络安全 kerberos html

我们的作业是使用yarn来调度的，那么肯定就需要使用相关的命令来进行管理，简单的有查询任务列表和killed某一个正在运行中的任务。

大数据真好玩

2021-03-30

7.3K0

多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

node.js hadoop html hbase 大数据

由于Kylin的本身架构（广播特性）和业务特点通常不适用于单套Kylin集群的节点过多，通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享，希望对大家有所帮助。

大数据真好玩

2021-01-26

9450

HFile文件格式与HBase读写

javascript html

HFile是HBase存储数据的文件组织形式。HFile文件的特点： 1）HFile由DataBlock、Meta信息(Index、BloomFilter)、Info等信息组成。 2）整个DataBlock由一个或者多个KeyValue组成。 3）在文件内按照Key排序。

大数据真好玩

2020-06-12

2.1K0

Apache Calcite原理极简入门

express hive html mapreduce

Apache Calcite 是独立于存储与执行的SQL解析、优化引擎，广泛应用于各种离线、搜索、实时查询引擎，如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化，解析calcite优化引擎的实现原理。

大数据真好玩

2020-06-07

2.4K0

实战经验 | Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题

html kafka 网络安全大数据

场景描述：如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events，便会遇到Kafka Topic覆盖问题，具体表现为，Kafka Source可以正常从指定的Topic中读取数据，但在Kafka Sink中配置的目标Topic不起作用，数据仍然会被写入到Source中指定的Topic中。

大数据真好玩

2019-09-12

1.8K2

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态