首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1279961
阅读量
315
订阅数
「硬刚Doris系列」Doris高级用法
Rollup 可以理解为 Table 的一个物化索引结构。物化 是因为其数据在物理上独立存储,而 索引 的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增加数据的聚合度。
王知无-import_bigdata
2022-06-05
1.5K0
硬刚Doris系列」Apache Doris基本使用和数据模型
我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708
王知无-import_bigdata
2022-06-05
1.4K0
Apache Hudi 0.11 版本重磅发布,新特性速览!
在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关,您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。
王知无-import_bigdata
2022-06-05
3.3K0
Flink SQL流式聚合Mini-Batch优化原理浅析
流式聚合(streaming aggregation)是我们编写实时业务逻辑时非常常见的场景,当然也比较容易出现各种各样的性能问题。Flink SQL使得用户可以通过简单的聚合函数和GROUP BY子句实现流式聚合,同时也内置了一些优化机制来解决部分case下可能遇到的瓶颈。本文对其中常用的Mini-Batch做个简要的介绍,顺便从源码看一看它的实现思路。
王知无-import_bigdata
2022-03-11
1K0
卷起来了,Apache Flink 1.13.6 发布!
Hi,我是王知无,一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。
王知无-import_bigdata
2022-03-11
1.5K0
Atlas血缘分析在数据仓库中的实战案例
1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系
王知无-import_bigdata
2022-03-11
3.1K0
Kafka运维小贴士 | Kafka 消息监控
笔者经常遇到一些无法优化的慢查询,面对这样的慢查询,笔者会将其进行预先计算存储到mongodb或者elasticsearch中。这个业务场景需要将mysql的binlog数据发送到kafka,然后订阅kafka并消费其中的binlog数据以实现实时加速查询。但是消费binlog就可能会有很多意外发生,比如mysql数据库发生死锁,或者消费发生并发问题,网络长时间阻塞,这些状况都会导致kafka消费发生阻塞,一旦发生阻塞,用户从mongodb或者elasticsearch中就会查询不到最新的mysql数据,所以笔者需要监控kafka中消息的消费情况,监控的方案有很多,笔者进行了整理,以便日后回顾。
王知无-import_bigdata
2020-09-25
2.2K0
Hadoop支持Lzo压缩配置及案例
1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/
王知无-import_bigdata
2020-09-08
1.8K0
Apache Beam 大数据处理一站式分析
大数据处理其实经常被很多人低估,缺乏正确的处理体系,其实,如果没有高质量的数据处理流程,人工智能将只有人工而没有智能。现在的趋势是数据体量不断上涨,团队却低估了规模所带来的复杂度。大数据领域泰斗级人物Jesse Anderson曾做过研究,一个组织架构比较合理的人工智能团队,数据处理工程师需要占团队总人数的4/5,然而很多团队还没有认识到这点。大数据处理涉及大量复杂因素,而Apache Beam恰恰可以降低数据处理的难度,它是一个概念产品,所有使用者都可以根据它的概念继续拓展。
王知无-import_bigdata
2020-05-12
1.4K0
Spark源码阅读的正确打开方式
Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。
王知无-import_bigdata
2020-02-10
1.1K0
Flink UDF自动注册实践
通过上面得方法,发现在检查完类的实例化之后,便是对该类进行注册使用,分别针对Table API和SQL API两种不同形式去进行注册。
王知无-import_bigdata
2019-07-23
1.5K0
Scala之旅-简介篇
本次 Scala 之旅教程包含了对于大多数 Scala 特性的简单介绍。主要针对 Scala 这门语言的初学者。
王知无-import_bigdata
2019-03-15
9570
Scala 基础语法(一)
如果你之前是一名 Java 程序员,并了解 Java 语言的基础知识,那么你能很快学会 Scala 的基础语法。
王知无-import_bigdata
2019-03-15
7120
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档