腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏成员
举报
638
文章
1401756
阅读量
321
订阅数
订阅专栏
申请加入专栏
全部文章(638)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(72)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(46)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(21)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
开发(14)
打包(13)
消息队列 CMQ 版(13)
批量计算(12)
http(12)
数据湖(12)
bash(11)
面试(11)
数据迁移(10)
云计算(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
框架(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
架构(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
设计(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
模型(3)
内存(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
基础(2)
监控(2)
解决方案(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Hive/Spark/Flink增量查询Hudi最佳实践一网打尽
spark
hive
flink
数据
最佳实践
我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。例如,如果table name = hudi_tbl,我们得到
王知无-import_bigdata
2023-09-06
1K
0
Flink1.16 SQL Gateway 迁移Hive SQL任务实战
hive
spark
https
网络安全
java
我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务,当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低,是个人都能写几下并且跑起来,还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去,主要是SQL Boy便宜,无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层,而它本身作为二级队列,并不是真正意义上的网关。
王知无-import_bigdata
2023-02-01
1.2K
0
Flink1.16新特性图文解析
flink
大数据
hive
存储
迁移
sql gateway这个功能超级强大,支持多租户,协议插件化,兼容hive生态,以后flink流批作业都可以通过sql gateway提交到集群了。
王知无-import_bigdata
2023-02-01
954
0
Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题
windows
flink
大数据
hive
sql
本文详细阐述了在 “批处理后,流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件,从而防止过多小文件的产生。
王知无-import_bigdata
2022-11-11
1.2K
0
「Hudi系列」Hudi查询&写入&常见问题汇总
hive
大数据
文件存储
数据库
spark
2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
王知无-import_bigdata
2022-06-05
6.3K
0
Apache Hudi 0.11 版本重磅发布,新特性速览!
spark
打包
flink
大数据
hive
在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关,您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。
王知无-import_bigdata
2022-06-05
3.4K
0
Presto在字节跳动的内部实践与优化
hive
数据分析
日志数据
大数据
sql
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。
王知无-import_bigdata
2022-06-05
1.5K
0
基于Flink1.14 + Iceberg0.13构建实时数据湖实战
flink
大数据
hive
数据库
sql
Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog,需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下,然后重启Flink
王知无-import_bigdata
2022-06-05
1.6K
0
「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
hive
spark
hadoop
sql
jar
hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件,而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。
王知无-import_bigdata
2022-03-11
2.4K
0
Atlas血缘分析在数据仓库中的实战案例
打包
jar
xml
hive
sql
1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系
王知无-import_bigdata
2022-03-11
3.3K
0
基于Hive数据仓库的标签画像实战
数据库
日志数据
sql
hive
存储
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。
王知无-import_bigdata
2021-11-30
963
0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
王知无-import_bigdata
2021-10-27
3.5K
0
打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis!
存储
jdbc
hive
flink
大数据
微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器!
王知无-import_bigdata
2021-09-22
1.3K
0
Flink重点难点:Flink Table&SQL必知必会(二)
sql
flink
大数据
hive
api
介绍了 Flink Table & SQL的一些核心概念,本部分将介绍 Flink 中窗口和函数。
王知无-import_bigdata
2021-09-22
1.9K
0
在所有Spark模块中,我愿称SparkSQL为最强!
spark
python
hive
api
批量计算
我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。
王知无-import_bigdata
2021-07-30
1.7K
0
当我们在学习Hive的时候在学习什么?「硬刚Hive续集」
mapreduce
spark
hive
ide
sql
我在之前的硬刚系列《大数据方向另一个十年开启 |《硬刚系列》第一版完结》中写过一个《硬刚Hive | 4万字基础调优面试小总结》,这个小结里基本涵盖了你所看过的关于Hive的常见的知识和面试八股文。
王知无-import_bigdata
2021-07-30
691
0
Presto原理&调优&面试&实战全面升级版
云数据库 SQL Server
任务调度
hive
javascript
sql
很久之前,曾经写过一篇 《Presto在大数据领域的实践和探索》 。文中详细讲解了Presto的原理和应用。
王知无-import_bigdata
2021-07-12
2.1K
0
实时数据湖:Flink CDC流式写入Hudi
hadoop
flink
大数据
spark
hive
•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2
王知无-import_bigdata
2021-07-12
2.5K
0
硬刚Hive | 4万字基础调优面试小总结
云数据库 SQL Server
hive
sql
数据库
大数据
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。
王知无-import_bigdata
2021-06-01
1.9K
0
最新Hive/Hadoop高频面试点小集合
hive
文件存储
数据库
大数据
数据处理
如果其中有一张表为小表,直接使用map端join的方式(map端加载小表)进行聚合。
王知无-import_bigdata
2021-04-21
1.1K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档