暴走大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏成员

298

文章

584493

阅读量

100

订阅数

Flink写入数据到Hudi数据湖的各种方式

bootstrap flink 大数据 jquery sql

主要用于数据初始化导入。Bulk Insert不会进行数据去重，需要用户在数据插入前进行数据去重

大数据真好玩

2022-12-05

2.1K0

Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用

unix 编程算法数据库 sql 云数据库 SQL Server

1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1.3.2 intervalJoin SQL用法 1.4 coGroup

大数据真好玩

2022-12-05

2.8K0

Apache Doris，MPP架构数据库王者学习总结

存储数据库 sql 大数据云数据库 SQL Server

doris是一个基于mpp（massively parallel processing，即大规模并行处理）的交互式sql数据仓库,是一个面向多种数据分析场景的，兼容mysql协议的，高性能的，分布式关系型列式数据库，用于报告和分析。

大数据真好玩

2022-04-27

3K0

「ClickHouse系列」ClickHouse中的物化视图详解

数据库 sql 存储

视图是由若干个字段以及若干条记录构成(也常称为虚标)，它与表有很多相似的地方，视图中的数据源来自于原表,视图本身不存储数据,视图它保存的仅仅是一条select语句，并没有保存真正的数据。

大数据真好玩

2022-04-27

11.8K0

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

flink 大数据数据库 sql 编程算法

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

大数据真好玩

2021-11-23

1.6K0

六大方法彻底解决Flink Table & SQL维表Join

flink 大数据 sql 缓存存储

随着 Flink Table & SQL的发展，Flink SQL中用于进行维表Join也成为了很多场景的选择。

大数据真好玩

2021-11-16

3.6K0

上帝视角Hbase二级索引方案全解析

hbase TDSQL MySQL 版 apache sql lucene/solr

HBase中的一级索引指数据在写入region时，会根据rowkey进行排序后写入，之后regionserver在加载region时，会自动为当前region的rowkey创建一个LSM树的索引,方便对当前region,rowkey的查询。

大数据真好玩

2021-11-16

1.3K0

SparkSQL并行执行多个Job的探索

spark sql 数据库编程算法 linux

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据真好玩

2021-11-16

1.5K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

大数据真好玩

2021-11-05

2.7K0

Hive重点难点：Hive原理&优化&面试(下)

spark sql 数据库存储文件存储

Map在读取数据时，先将数据拆分成若干数据，并读取到Map方法中被处理。数据在输出的时候，被分成若干分区并写入内存缓存（buffer）中，内存缓存被数据填充到一定程度会溢出到磁盘并排序，当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。

大数据真好玩

2021-10-25

1.5K0

Hive重点难点：Hive原理&优化&面试(上)

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

大数据真好玩

2021-10-25

1.2K0

数据湖YYDS！ Flink+IceBerg实时数据湖实践

flink 数据湖数据库 sql 存储

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

大数据真好玩

2021-10-25

1.8K0

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

1、Spark SQL自定义函数就是可以通过scala写一个类，然后在SparkSession上注册一个函数并对应这个类，然后在SQL语句中就可以使用该函数了，首先定义UDF函数，那么创建一个SqlUdf类，并且继承UDF1或UDF2等等，UDF后边的数字表示了当调用函数时会传入进来有几个参数，最后一个R则表示返回的数据类型，如下图所示：

大数据真好玩

2021-09-18

3.8K0

Flink1.12新特性之Flink SQL时态表小总结

sql flink 大数据

Flink 1.12正式发布后，带来了很多新的特性，本文重点学习和总结一下Flink 1.11和 Flink1.12中时态表的使用和自己的一个小总结，文章如有问题，请大家留言交流讨论，我会及时改正。

大数据真好玩

2021-09-18

1K0

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

云数据库 SQL Server sql spark 数据库 hive

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。

大数据真好玩

2021-09-18

2.3K0

SQL BOY YYDS! 石榴姐YYDS! Hive SQL同时在线问题分析

sql 数据分析

本文为《大数据成神之路-金牛宫》的群花「石榴姐yyds」原创，你可以在这里找到原文：https://blog.csdn.net/godlovedaniel/article/details/118651811。

大数据真好玩

2021-07-30

1K0

Flink集成Iceberg小小实战

hive html flink sql 大数据

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

大数据真好玩

2021-07-30

5.7K1

关于Presto避坑的小小指南

数据库 sql 云数据库 SQL Server unix 大数据

所以说，当公司业务有跨库分析时（一般情况是，业务数据库分布在各个部门），一些数据需要配合其他部门的数据进行关联查询，这个时候可以考虑Presto。但是目前，对于MySQL统计查询在性能上有瓶颈。可考虑将数据按时间段归档到HDFS中，以提高统计效率。

大数据真好玩

2021-07-09

2K0

平平无奇SQL面试题：经典50例

sql sql server 数据库

组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()

大数据真好玩

2021-07-07

2.5K0

Apache Spark 3.0 自适应查询优化在网易的深度实践及改进

mapreduce sql spark

本文基于 Apahce Spark 3.1.1 版本，讲述 AQE 自适应查询优化的原理，以及网易有数在 AQE 实践中遇到的痛点和做出的思考。

大数据真好玩

2021-07-07

9400

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态