腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏成员
举报
298
文章
584157
阅读量
100
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
Flink写入数据到Hudi数据湖的各种方式
bootstrap
flink
大数据
jquery
sql
主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重
大数据真好玩
2022-12-05
2.1K
0
Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用
unix
编程算法
数据库
sql
云数据库 SQL Server
1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1.3.2 intervalJoin SQL用法 1.4 coGroup
大数据真好玩
2022-12-05
2.8K
0
Apache Doris,MPP架构数据库王者学习总结
存储
数据库
sql
大数据
云数据库 SQL Server
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。
大数据真好玩
2022-04-27
3K
0
「ClickHouse系列」ClickHouse中的物化视图详解
数据库
sql
存储
视图是由若干个字段以及若干条记录构成(也常称为虚标),它与表有很多相似的地方,视图中的数据源来自于原表,视图本身不存储数据,视图它保存的仅仅是一条select语句,并没有保存真正的数据。
大数据真好玩
2022-04-27
11.8K
0
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
flink
大数据
数据库
sql
编程算法
在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态的持久化还提供了专门的机制和状态管理器。
大数据真好玩
2021-11-23
1.6K
0
六大方法彻底解决Flink Table & SQL维表Join
flink
大数据
sql
缓存
存储
随着 Flink Table & SQL的发展,Flink SQL中用于进行维表Join也成为了很多场景的选择。
大数据真好玩
2021-11-16
3.6K
0
上帝视角Hbase二级索引方案全解析
hbase
TDSQL MySQL 版
apache
sql
lucene/solr
HBase中的一级索引指数据在写入region时,会根据rowkey进行排序后写入,之后regionserver在加载region时,会自动为当前region的rowkey创建一个LSM树的索引,方便对当前region,rowkey的查询。
大数据真好玩
2021-11-16
1.3K
0
SparkSQL并行执行多个Job的探索
spark
sql
数据库
编程算法
linux
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据真好玩
2021-11-16
1.5K
0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
大数据真好玩
2021-11-05
2.7K
0
Hive重点难点:Hive原理&优化&面试(下)
spark
sql
数据库
存储
文件存储
Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。
大数据真好玩
2021-10-25
1.5K
0
Hive重点难点:Hive原理&优化&面试(上)
hive
sql
数据库
mapreduce
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。
大数据真好玩
2021-10-25
1.2K
0
数据湖YYDS! Flink+IceBerg实时数据湖实践
flink
数据湖
数据库
sql
存储
互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展,无论是实时计算还是离线计算、无论是数据仓库还是数据中台,都已经深入各大公司的各个业务。
大数据真好玩
2021-10-25
1.8K
0
Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
sql
spark
1、Spark SQL自定义函数就是可以通过scala写一个类,然后在SparkSession上注册一个函数并对应这个类,然后在SQL语句中就可以使用该函数了,首先定义UDF函数,那么创建一个SqlUdf类,并且继承UDF1或UDF2等等,UDF后边的数字表示了当调用函数时会传入进来有几个参数,最后一个R则表示返回的数据类型,如下图所示:
大数据真好玩
2021-09-18
3.8K
0
Flink1.12新特性之Flink SQL时态表小总结
sql
flink
大数据
Flink 1.12正式发布后,带来了很多新的特性,本文重点学习和总结一下Flink 1.11和 Flink1.12中时态表的使用和自己的一个小总结,文章如有问题,请大家留言交流讨论,我会及时改正。
大数据真好玩
2021-09-18
1K
0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
云数据库 SQL Server
sql
spark
数据库
hive
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据真好玩
2021-09-18
2.3K
0
SQL BOY YYDS! 石榴姐YYDS! Hive SQL同时在线问题分析
sql
数据分析
本文为《大数据成神之路-金牛宫》的群花「石榴姐yyds」原创,你可以在这里找到原文:https://blog.csdn.net/godlovedaniel/article/details/118651811。
大数据真好玩
2021-07-30
1K
0
Flink集成Iceberg小小实战
hive
html
flink
sql
大数据
Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.
大数据真好玩
2021-07-30
5.7K
1
关于Presto避坑的小小指南
数据库
sql
云数据库 SQL Server
unix
大数据
所以说,当公司业务有跨库分析时(一般情况是,业务数据库分布在各个部门),一些数据需要配合其他部门的数据进行关联查询,这个时候可以考虑Presto。但是目前,对于MySQL统计查询在性能上有瓶颈。可考虑将数据按时间段归档到HDFS中,以提高统计效率。
大数据真好玩
2021-07-09
2K
0
平平无奇SQL面试题:经典50例
sql
sql server
数据库
组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()
大数据真好玩
2021-07-07
2.5K
0
Apache Spark 3.0 自适应查询优化在网易的深度实践及改进
mapreduce
sql
spark
本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易有数在 AQE 实践中遇到的痛点和做出的思考。
大数据真好玩
2021-07-07
938
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档