腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1279961

阅读量

315

订阅数

「硬刚Doris系列」Doris高级用法

javascript 打包 rollup.js

Rollup 可以理解为 Table 的一个物化索引结构。物化是因为其数据在物理上独立存储，而索引的意思是，Rollup可以调整列顺序以增加前缀索引的命中率，也可以减少key列以增加数据的聚合度。

王知无-import_bigdata

2022-06-05

1.5K0

硬刚Doris系列」Apache Doris基本使用和数据模型

数据库 sql javascript 打包 rollup.js

我们使用 event_day 列作为分区列，建立3个分区: p201706, p201707, p201708

王知无-import_bigdata

2022-06-05

1.4K0

Apache Hudi 0.11 版本重磅发布，新特性速览!

spark 打包 flink 大数据 hive

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

王知无-import_bigdata

2022-06-05

3.3K0

Flink SQL流式聚合Mini-Batch优化原理浅析

批量计算 flink 打包大数据 windows

流式聚合（streaming aggregation）是我们编写实时业务逻辑时非常常见的场景，当然也比较容易出现各种各样的性能问题。Flink SQL使得用户可以通过简单的聚合函数和GROUP BY子句实现流式聚合，同时也内置了一些优化机制来解决部分case下可能遇到的瓶颈。本文对其中常用的Mini-Batch做个简要的介绍，顺便从源码看一看它的实现思路。

王知无-import_bigdata

2022-03-11

1K0

卷起来了，Apache Flink 1.13.6 发布！

java api javascript 打包文件存储

Hi，我是王知无，一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。

王知无-import_bigdata

2022-03-11

1.5K0

Atlas血缘分析在数据仓库中的实战案例

打包 jar xml hive sql

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系

王知无-import_bigdata

2022-03-11

3.1K0

Kafka运维小贴士 | Kafka 消息监控

kafka 云数据库 SQL Server 打包 mongodb 数据库

笔者经常遇到一些无法优化的慢查询，面对这样的慢查询，笔者会将其进行预先计算存储到mongodb或者elasticsearch中。这个业务场景需要将mysql的binlog数据发送到kafka，然后订阅kafka并消费其中的binlog数据以实现实时加速查询。但是消费binlog就可能会有很多意外发生，比如mysql数据库发生死锁，或者消费发生并发问题，网络长时间阻塞，这些状况都会导致kafka消费发生阻塞，一旦发生阻塞，用户从mongodb或者elasticsearch中就会查询不到最新的mysql数据，所以笔者需要监控kafka中消息的消费情况，监控的方案有很多，笔者进行了整理，以便日后回顾。

王知无-import_bigdata

2020-09-25

2.2K0

Hadoop支持Lzo压缩配置及案例

hadoop node.js 大数据文件存储打包

1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

王知无-import_bigdata

2020-09-08

1.8K0

Apache Beam 大数据处理一站式分析

css 打包 windows 数据处理数据库

大数据处理其实经常被很多人低估，缺乏正确的处理体系，其实，如果没有高质量的数据处理流程，人工智能将只有人工而没有智能。现在的趋势是数据体量不断上涨，团队却低估了规模所带来的复杂度。大数据领域泰斗级人物Jesse Anderson曾做过研究，一个组织架构比较合理的人工智能团队，数据处理工程师需要占团队总人数的4/5，然而很多团队还没有认识到这点。大数据处理涉及大量复杂因素，而Apache Beam恰恰可以降低数据处理的难度，它是一个概念产品，所有使用者都可以根据它的概念继续拓展。

王知无-import_bigdata

2020-05-12

1.4K0

Spark源码阅读的正确打开方式

spark 打包 sql https maven

Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，吊打其他的大数据处理框架。

王知无-import_bigdata

2020-02-10

1.1K0

Flink UDF自动注册实践

大数据文件存储打包

通过上面得方法，发现在检查完类的实例化之后，便是对该类进行注册使用，分别针对Table API和SQL API两种不同形式去进行注册。

王知无-import_bigdata

2019-07-23

1.5K0

Scala之旅-简介篇

scala java 打包

本次 Scala 之旅教程包含了对于大多数 Scala 特性的简单介绍。主要针对 Scala 这门语言的初学者。

王知无-import_bigdata

2019-03-15

9570

Scala 基础语法(一)

java scala python 打包

如果你之前是一名 Java 程序员，并了解 Java 语言的基础知识，那么你能很快学会 Scala 的基础语法。

王知无-import_bigdata

2019-03-15

7120

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态