腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏作者
举报
717
文章
537746
阅读量
33
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
编程算法
数据库
数据
java
spark
hive
node.js
kafka
hadoop
python
存储
hbase
云数据库 SQL Server
TDSQL MySQL 版
物联网
flink
api
mapreduce
网络安全
linux
网站
数据分析
https
模型
文件存储
apache
yarn
服务
分布式
ide
数据结构
javascript
scala
xml
spring
windows
函数
html
腾讯云测试服务
jar
maven
http
容器
缓存
tcp/ip
数据处理
设计
机器学习
vue.js
基础
配置
语法
bash
容器镜像服务
数据湖
进程
可视化
统计
json
nosql
打包
微服务
pyspark
oracle
shell
面向对象编程
腾讯云开发者社区
tomcat
nginx
消息队列 CMQ 版
yum
jdbc
zookeeper
gpt
编码
博客
公众号
php
bash 指令
推荐系统
微信
云计算
bi
flume
table
测试
工程师
内存
算法
数据接口
对象存储
c++
jsp
unix
人工智能
电商
jdk
mybatis
数据可视化
虚拟化
es
error
openai
工具
全栈
视频
索引
腾讯
系统
原理
字符串
ajax
云数据库 Redis
mvc
git
github
全文检索
深度学习
专用宿主机
访问管理
日志数据
企业
数据安全
hashmap
aop
mysql
部署
服务器
集群
教程
解决方案
入门
事务
线程
AI绘画
其他
servlet
jquery
access
搜索引擎
lucene/solr
神经网络
日志服务
jvm
正则表达式
rpc
sdn
airflow
exception
join
mq
nested
redis
set
shuffle
编程
插件
产品
程序
工作
接口
开发
开发者
连接
排序
同步
需求分析
优化
负载均衡
NLP 服务
自动驾驶
c#
regex
react
css
负载均衡缓存
批量计算
mongodb
serverless
parcel
游戏
开源
自动化
运维
ssh
监督学习
rabbitmq
kernel
spring cloud
安全
机器人
系统架构
mvcc
ascii
sdk
迁移
实时etl
数据库管理
app
break
bug
char
connect
connection
csv
for循环
gateway
host
list
map
null
pandas
pip
process
prompt
pycharm
rdd
select
server
service
truncate
version
video
view
word
百度
变量
编译
对象
多线程
集合
架构
镜像
框架
日志
软件
实践
数据存储
数据类型
图表
微信公众号
性能
异步
源码
费用中心
云服务器
内容分发网络 CDN
ruby
bootstrap
ecmascript
android
eclipse
centos
容器服务
云直播
命令行工具
云推荐引擎
DevOps 解决方案
数据备份
o2o
渲染
vr 视频解决方案
express
kubernetes
压力测试
数据迁移
无人驾驶
wordpress
强化学习
spring boot
线性回归
seo
二叉树
dubbo
jenkins
gradle
scikit-learn
socket编程
lamp
ntp
小程序
网站建设
nat
processing
信息流
任务调度
聚类算法
实时监控
Elasticsearch Service
数据集成
大数据存储
汽车
教育
腾讯云
alias
alpha
amqp
async
backend
between
chatgpt
classnotfoundexception
clickhouse
cloud
cloudera
code
conda
config
core
count
cpu
data
date
default
dll
drawing
ear
echarts
edge
equals
excel
exec
execution
export
field
fifo
function
geo
having
hdfs
hibernate
ibatis
import
insert
int
io
it
jetbrains
jetty
key
matplotlib
model
monitor
partition
path
port
prometheus
ps
regexp
reset
rows
runtimeexception
socket
sqoop
ssl
substr
sys
tampermonkey
target
this
thread
time
timeout
token
txt
types
unique
vim
window
worker
zero
报表
备份
并发
产品经理
程序员
磁盘
代理
登录
递归
地图
队列
多进程
二维码
翻译
分页
高可用
工具类
行业
华为
技巧
监控
脚本
客户端
流量
论文
内核
配色
权限
事件
实时计算
手机
数据仓库
数据同步
数学
数组
搜索
推送
网关
效率
性能监控
虚拟机
异常
域名
在线教育
主机
LLM
搜索文章
搜索
搜索
关闭
提升数据分析效率:Amazon S3 Express One Zone数据湖实战教程
express
数据分析
数据湖
教程
效率
(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道)
Maynor
2023-12-18
122
0
Hudi数据湖技术引领大数据新风口(四)核心概念
大数据
数据湖
事件
数据
索引
Hudi的核心是维护表上在不同的即时时间(instants)\执行的所有操作的时间轴(timeline)\,这有助于提供表的即时视图,同时还有效地支持按到达顺序检索数据。一个instant由以下三个部分组成:
Maynor
2023-09-25
223
0
流数据湖平台Apache Paimon(三)Flink进阶使用
apache
flink
数据湖
数据
性能
当Sorted Run数量较少时,Paimon writer 将在单独的线程中异步执行压缩,因此记录可以连续写入表中。然而,为了避免Sorted Runs的无限增长,当Sorted Run的数量达到阈值时,writer将不得不暂停写入。下表属性确定阈值。
Maynor
2023-07-31
1.6K
0
流数据湖平台Apache Paimon(二)集成 Flink 引擎
apache
flink
数据湖
配置
同步
Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。
Maynor
2023-07-31
1.8K
0
流数据湖平台Apache Paimon(一)概述
apache
存储
数据湖
日志
数据
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日,FTS进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。
Maynor
2023-07-31
1.4K
0
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
spark
大数据
数据湖
jetty
version
修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。
Maynor
2023-07-28
195
0
Hudi数据湖技术引领大数据新风口(二)编译安装
大数据
数据湖
编译
镜像
源码
(1)上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录,并解压更名
Maynor
2023-07-28
409
0
Hudi:数据湖技术引领大数据新风口
存储
大数据
数据湖
数据
索引
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。
Maynor
2023-07-25
401
0
[解惑]数据湖跟数仓的区别
数据湖
📷 📷 📷
Maynor
2021-12-07
907
0
大数据错题库(微信群Bug整理)
hive
spark
node.js
大数据
数据湖
勤快懒人: 数据仓库 本身上讲 已经是结构化或者是半结构化的数据 数据湖 就是半结构化 +没有结构的数据 数据源更加丰富 【数据仓库或者数据湖的作用 感觉和代码复用很想 常用的抽出来】
Maynor
2021-12-07
1.7K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档