腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏成员
举报
638
文章
1402362
阅读量
321
订阅数
订阅专栏
申请加入专栏
全部文章(638)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(72)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(46)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(21)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
开发(14)
打包(13)
消息队列 CMQ 版(13)
批量计算(12)
http(12)
数据湖(12)
bash(11)
面试(11)
数据迁移(10)
云计算(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
框架(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
架构(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
设计(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
模型(3)
内存(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
基础(2)
监控(2)
解决方案(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
八股必备|Kafka幂等性原理深入解析
批量计算
缓存
kafka
在正常情况下,Producer向Broker投递消息,Broker将消息追加写到对应的流(即某一Topic的某一Partition)中,并向Producer返回ACK信号,表示确认收到。
王知无-import_bigdata
2022-04-13
2.2K
0
Flink SQL流式聚合Mini-Batch优化原理浅析
批量计算
flink
打包
大数据
windows
流式聚合(streaming aggregation)是我们编写实时业务逻辑时非常常见的场景,当然也比较容易出现各种各样的性能问题。Flink SQL使得用户可以通过简单的聚合函数和GROUP BY子句实现流式聚合,同时也内置了一些优化机制来解决部分case下可能遇到的瓶颈。本文对其中常用的Mini-Batch做个简要的介绍,顺便从源码看一看它的实现思路。
王知无-import_bigdata
2022-03-11
1.1K
0
Flink1.14.2发布,除了log4j漏洞你还需要关注什么?
api
批量计算
sql
flink
java
Flink1.14.2 Release版本已经在12月16日发布,主要是修复了Log4j导致的可执行任意代码的漏洞问题,但是还有一些非常重要的功能更新。
王知无-import_bigdata
2022-01-20
1K
0
在所有Spark模块中,我愿称SparkSQL为最强!
spark
python
hive
api
批量计算
我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。
王知无-import_bigdata
2021-07-30
1.7K
0
Kafka 为了避免 Full GC,竟然还在发送端设计了内存池,自己管理内存,太巧妙了
kafka
缓存
批量计算
在上一篇文章中,我们讲到了 Kafka 发送消息的八个流程,并且着重讲了 Kafka 封装了一个内存结构,把每个分区的消息封装成批次,缓存到内存里。
王知无-import_bigdata
2021-05-07
944
0
Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值
javascript
spark
批量计算
数据处理
默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的数据接收速率高于Spark从队列中移除数据的速率,也就是数据处理能力低,在设置间隔内不能完全处理当前接收速率接收的数据。如果这种情况持续过长的时间,会造成数据在内存中堆积,导致Receiver所在Executor内存溢出等问题(如果设置StorageLevel包含disk, 则内存存放不下的数据会溢写至disk, 加大延迟)。Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate ”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力,Spark Streaming 从v1.5开始引入反压机制(back-pressure),通过动态控制数据接收速率来适配集群数据处理能力。
王知无-import_bigdata
2020-11-24
750
0
Spark Streaming官方编程指南
spark
linux
文件存储
编程算法
批量计算
Spark Streaming(下称streaming)是Spark core的拓展,一个易扩展、高吞吐、高容错的流式数据处理系统。
王知无-import_bigdata
2020-06-11
752
0
SparkSQL内核解析之逻辑计划
批量计算
express
sql
编程算法
LogicalPlan的父类QueryPlan主要分为六个模块: – 输入输出 涉及QueryPlan内属性相关的输入输出 – 基本属性 QueryPlan内的基本属性 – 字符串 主要用于打印QueryPlan的树形结构信息 – 规范化 类似Expression中的规范化 – 表达式操作 – 约束 本质上也是数据过滤条件的一种,同样是表达式类型。通过显式的过滤条件推导约束
王知无-import_bigdata
2020-06-04
2.1K
0
Apache Flink在小米的发展和应用
大数据
文件存储
spark
批量计算
java
场景描述:本文由小米的王加胜同学分享,文章介绍了 Apache Flink 在小米的发展,从 Spark Streaming 迁移到 Flink ,在调度计算与调度数据、Mini batch 与 streaming、数据序列化等方面对比了 Spark Streaming 和 Flink 的一些区别。
王知无-import_bigdata
2019-11-11
985
0
Flink 网络传输优化技术
大数据
文件存储
java
批量计算
javascript
作为工业级的流计算框架,Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据,所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外,Flink 的数据传输还需要支持框架本身的特性,例如反压和用于测量延迟的 latency marker。在社区不断的迭代中,Flink 逐渐积累了一套值得研究的网络栈(Network Stack),本文将详细介绍 Flink Network Stack 的实现细节以及关键的优化技术。
王知无-import_bigdata
2019-08-13
2K
0
使用Flink实现索引数据到Elasticsearch
Elasticsearch Service
processing
http
批量计算
使用Flink处理数据时,可以基于Flink提供的批式处理(Batch Processing)和流式处理(Streaming Processing)API来实现,分别能够满足不同场景下应用数据的处理。这两种模式下,输入处理都被抽象为Source Operator,包含对应输入数据的处理逻辑;输出处理都被抽象为Sink Operator,包含了对应输出数据的处理逻辑。这里,我们只关注输出的Sink Operator实现。
王知无-import_bigdata
2019-08-02
1.6K
0
万字长文干货 | Kafka 事务性之幂等性实现
kafka
大数据
缓存
批量计算
Apache Kafka 从 0.11.0 开始,支持了一个非常大的 feature,就是对事务性的支持,在 Kafka 中关于事务性,是有三种层面上的含义:一是幂等性的支持;二是事务性的支持;三是 Kafka Streams 的 exactly once 的实现,关于 Kafka 事务性系列的文章我们只重点关注前两种层面上的事务性,与 Kafka Streams 相关的内容暂时不做讨论。社区从开始讨论事务性,前后持续近半年时间,相关的设计文档有六十几页(参考 Exactly Once Delivery and Transactional Messaging in Kafka)。事务性这部分的实现也是非常复杂的,之前 Producer 端的代码实现其实是非常简单的,增加事务性的逻辑之后,这部分代码复杂度提高了很多,本篇及后面几篇关于事务性的文章会以 2.0.0 版的代码实现为例,对这部分做了一下分析:
王知无-import_bigdata
2019-05-21
4.9K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档