腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏作者
举报
298
文章
534489
阅读量
99
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
spark
数据库
编程算法
存储
kafka
flink
java
node.js
文件存储
hive
缓存
hadoop
api
hbase
mapreduce
TDSQL MySQL 版
数据处理
linux
apache
数据结构
云数据库 Redis
分布式
rpc
javascript
云数据库 SQL Server
网络安全
https
数据分析
unix
zookeeper
http
jvm
bash
yarn
html
bash 指令
消息队列 CMQ 版
vr 视频解决方案
Elasticsearch Service
搜索引擎
开源
面向对象编程
es
python
scala
打包
lucene/solr
批量计算
网站
数据安全
hashmap
tcp/ip
数据湖
负载均衡
xml
jquery
电商
企业
kubernetes
运维
rabbitmq
uml
云计算
任务调度
raft
php
ide
github
负载均衡缓存
nginx
腾讯云测试服务
日志数据
数据迁移
socket编程
windows
架构设计
微服务
processing
费用中心
其他
官方文档
机器学习
ios
iphone
c 语言
c++
servlet
bootstrap
json
ajax
android
oracle
jar
全文检索
analyzer
容器镜像服务
云数据迁移
短视频
命令行工具
腾讯计费
数据备份
express
容器
parcel
压力测试
shell
jdk
sql server
jdbc
grep
markdown
kerberos
微信
数据可视化
mqtt
ipv6
数据湖分析
clickhouse
count
flush
init
invoke
io
ip
map
merge
olap
parquet
partition
queue
record
session
sign
state
task
tdd
view
zk
实践
数据
统计
异步
搜索文章
搜索
搜索
关闭
Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用
unix
编程算法
数据库
sql
云数据库 SQL Server
1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1.3.2 intervalJoin SQL用法 1.4 coGroup
大数据真好玩
2022-12-05
2.4K
0
时间轮在Netty、Kafka中的应用
kafka
linux
java
编程算法
时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。
大数据真好玩
2022-12-05
1.1K
0
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
数据分析
数据处理
编程算法
javascript
存储
广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的数据是计费数据,以计费日志为依据向上可统计如行业维度、客户维度的消耗数据,分析不同维度的计费数据有助于业务及时进行商业决策,但目前部门内消耗统计以离线为主,这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求,所以我们的目标为:建设口径统一的实时消耗数据,结合BI工具的自动化配置和展现能力,满足业务实时多维消耗分析,提高数据运营的效率和数据准确性。
大数据真好玩
2022-06-17
1.1K
0
基于Seatunnel连通Hive和ClickHouse实战
编程算法
spark
hive
jquery
hadoop
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2K
0
Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager
大数据
flink
vr 视频解决方案
编程算法
缓存
为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true),再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction,即可满足多数情况的需要。
大数据真好玩
2022-06-17
1.2K
0
ClickHouse 数据类型全解析及实际应用
java
ipv6
编程算法
tcp/ip
python
基础类型只有数值、字符串和时间三种类型,没有 Boolean 类型,但可以使用整型的 0 或 1 替代。ClickHouse 的数据类型和常见的其他存储系统的数据类型对比:
大数据真好玩
2022-03-28
3.6K
0
【Spark重点难点】你从未深入理解的RDD和关键角色
spark
flink
大数据
分布式
编程算法
之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分:
大数据真好玩
2021-12-02
410
0
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
flink
大数据
数据库
sql
编程算法
在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态的持久化还提供了专门的机制和状态管理器。
大数据真好玩
2021-11-23
1.2K
0
SparkSQL并行执行多个Job的探索
spark
sql
数据库
编程算法
linux
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据真好玩
2021-11-16
1.4K
0
万字雄文:从数字资源向数字资产、数字资本的飞跃!
数据安全
编程算法
大数据
在数字经济时代,大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。
大数据真好玩
2021-11-05
343
0
Hadoop重点难点:HDFS读写/NN/2NN/DN
编程算法
大数据
node.js
NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了。
大数据真好玩
2021-10-12
960
0
Kafka Connect | 无缝结合Kafka构建高效ETL方案
kafka
编程算法
api
分布式
node.js
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
大数据真好玩
2021-09-18
449
0
从面试角度详解Kafka
kafka
编程算法
bash
bash 指令
node.js
Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。
大数据真好玩
2021-07-12
639
0
我们在学习Spark的时候,到底在学习什么?
编程算法
数据处理
大数据
存储
spark
Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。
大数据真好玩
2021-07-08
425
0
HDFS 底层交互原理解析
node.js
大数据
编程算法
zookeeper
大约在 15 年前,我们大数据开发的“祖师爷”(Doug Cutting)基于 Google 经典论文“三驾马车”,陆续实现了 HDFS、MapReduce、HBase 三个经典大数据组件并做了开源,这才有了这些年来大数据生态圈的红红火火。
大数据真好玩
2021-07-07
694
0
【大数据哔哔集20210117】Spark面试题灵魂40问
spark
大数据
编程算法
缓存
kafka
1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor
大数据真好玩
2021-01-26
807
0
Flink SQL高效Top-N方案的实现原理
编程算法
flink
大数据
官方文档
sql
Top-N是我们应用Flink进行业务开发时的常见场景,传统的DataStream API已经有了非常成熟的实现方案,如果换成Flink SQL,又该怎样操作?好在Flink SQL官方文档已经给出了标准答案,我们只需要照抄就行,其语法如下:
大数据真好玩
2021-01-26
2.4K
0
【大数据哔哔集20210107】聊聊MapReduce中的排序/二次排序/辅助排序
编程算法
大数据
mapreduce
【大数据哔哔集】是小编发起的每日大数据圈子了最高频、时尚、前沿的面试题目以及资讯等,欢迎您关注。
大数据真好玩
2021-01-26
802
0
打工人必备:详解MySQL索引类型和索引优点
编程算法
存储
数据库
sql
全文检索
索引是存储引擎用于快速查找记录的一种数据结构。因此良好的性能非常关键。尤其是当表中的数据量越来越大时,索引对性能的影响愈发重要。在数据量较小且负载较低时,不恰当的索引对性能的影响可能不明显,但当数据量逐渐增大时,性能则会急剧下降。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高几个数量级,“最优”的索引有时比一个“好的”索引性能要好两个数量级。
大数据真好玩
2021-01-26
977
0
【大数据哔哔集20210120】SparkSQL优化策略小盘点
存储
spark
编程算法
大部分做Spark开发的同学或多或少都做过很多的优化,事实上优化的策略是很多的,还有很多的默认策略做了其实是无感知,当时当某些场景数据规模比较庞大的时候就需要用户自己去控制优化策略了,我们希望对优化策略有个整体认识,然后我们做优化的时候才能够从多方面去切入。
大数据真好玩
2021-01-21
478
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档