腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1280292

阅读量

316

订阅数

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive spark hadoop sql jar

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。

王知无-import_bigdata

2022-03-11

2.1K0

Atlas血缘分析在数据仓库中的实战案例

打包 jar xml hive sql

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系

王知无-import_bigdata

2022-03-11

3.1K0

Flink1.12集成Hive打造自己的批流一体数仓

大数据 flink sql jar java

小编在去年之前分享过参与的实时数据平台的建设，关于实时数仓也进行过分享。客观的说，我们当时做不到批流一体，小编当时的方案是将实时消息数据每隔15分钟文件同步到离线数据平台，然后用同一套SQL代码进行离线入库操作。

王知无-import_bigdata

2021-01-20

1K0

Flink On K8S终极实现方案

flink 大数据 kubernetes jar

Flink作为新一代的大数据处理引擎，不仅是业内公认的最好的流处理引擎，而且具备机器学习等多种强大计算功能，用户只需根据业务逻辑开发一套代码，无论是全量数据还是增量数据，亦或者实时处理，一套方案即可全部解决。K8S是业内最流行的容器编排工具，与docker容器技术结合，可以提供比Yarn与Mesos更强大的集群资源管理功能，成为容器云的主要解决方案之一。如果能将两者结合，无疑是双剑合璧，对生产效能有着巨大的提升。本文将介绍目前为止，Flink On K8S的最前沿实现方案。

王知无-import_bigdata

2020-12-18

3.8K0

Flink Logback日志与邮件报警配置

flink 大数据 javascript xml jar

Flink官方推荐使用Logback替代默认的Log4j作为日志框架。我们之前一直用Log4j，最近切换成了更优秀的Logback，但是配置起来略有点麻烦，本文简述配置过程。

王知无-import_bigdata

2020-03-18

2.3K0

Spark Core源码精读计划3 | SparkContext辅助属性及后初始化

jar 云数据库 Redis spark

在文章#2中，我们了解了SparkContext的主体部分，即组件初始化。除了它之外，SparkContext中还有一些与其内部机制紧密相关的属性，下文为了简单，就将它们称为“辅助属性”。另外，在组件初始化完成后，还有一些善后工作，即后初始化（Post-init）。本文就来研究这两块内容。

王知无-import_bigdata

2019-08-02

7420

Hadoop分布式缓存(DistributedCache)

缓存 jar 分布式大数据 hadoop

DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理。

王知无-import_bigdata

2019-04-24

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态