腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SmartSi
专栏作者
举报
270
文章
583378
阅读量
53
订阅数
订阅专栏
申请加入专栏
全部文章(270)
大数据(82)
编程算法(63)
java(45)
spark(36)
api(33)
scala(32)
sql(29)
文件存储(29)
存储(26)
flink(26)
unix(25)
mapreduce(25)
kafka(25)
hive(24)
数据库(23)
hadoop(22)
apache(19)
zookeeper(19)
windows(16)
node.js(14)
python(13)
缓存(13)
Elasticsearch Service(13)
分布式(12)
TDSQL MySQL 版(11)
网站(11)
http(11)
hbase(11)
数据处理(10)
数据结构(10)
javascript(9)
云数据库 Redis(9)
云数据库 SQL Server(7)
html(6)
json(6)
jar(6)
容器(6)
shell(6)
jvm(6)
https(6)
打包(5)
maven(5)
jdbc(5)
bash(4)
xml(4)
analyzer(4)
yarn(4)
tcp/ip(4)
socket编程(4)
linux(3)
bash 指令(3)
容器镜像服务(3)
网络安全(3)
jdk(3)
ssh(3)
正则表达式(3)
hexo(3)
php(2)
css(2)
oracle(2)
github(2)
lucene/solr(2)
ubuntu(2)
腾讯云测试服务(2)
serverless(2)
kubernetes(2)
数据分析(2)
processing(2)
ios(1)
mac os(1)
regex(1)
postgresql(1)
ruby on rails(1)
git(1)
全文检索(1)
批量计算(1)
日志服务(1)
访问管理(1)
消息队列 CMQ 版(1)
数据加密服务(1)
云推荐引擎(1)
mongodb(1)
企业(1)
vr 视频解决方案(1)
rollup.js(1)
开源(1)
压力测试(1)
numpy(1)
sql server(1)
面向对象编程(1)
npm(1)
单元测试(1)
rpc(1)
uml(1)
云计算(1)
任务调度(1)
utf8(1)
raft(1)
数据湖(1)
elasticsearch(1)
fetch(1)
get(1)
iterable(1)
join(1)
key(1)
search(1)
size(1)
storm(1)
task(1)
worker(1)
yaml(1)
搜索(1)
索引(1)
搜索文章
搜索
搜索
关闭
Apache SeaTunnel 分布式数据集成平台
apache
spark
flink
数据分析
数据库
随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数据库已经达到 200 多个。与之相伴的便是,各种数据库之间的同步与转换需求激增,数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件,于是 SeaTunnel 应运而生。
smartsi
2022-04-01
4.2K
0
对流处理的误解
flink
大数据
windows
数据处理
apache
我们花了很多时间来思考流处理。更酷的是:我们也花了很多时间帮助其他人思考流处理以及如何使用流应用解决他们的数据问题。这个过程的第一步是纠正对现代流处理的误解(作为一个快速变化的领域,这里有很多误见值得我们思考)。在这篇文章中,我们选择了其中的 6 个进行讲解,由于 Apache Flink 是我们最熟悉的开源流处理框架,所以我们会基于 Flink 来讲解这些例子。
smartsi
2022-02-04
367
0
BookKeeper 简介
api
存储
apache
zookeeper
Apache BookKeeper 是企业级存储系统,旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院(Yahoo! Research)开发,作为 Hadoop 分布式文件系统(HDFS)NameNode 的高可用(HA)解决方案,以解决严重的单点故障问题。
smartsi
2022-02-04
1.6K
0
Debezium 初了解
kafka
apache
数据库
sql
云数据库 SQL Server
在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。
smartsi
2021-08-13
5.3K
0
Flink 管理大型状态之增量 Checkpoint
flink
大数据
apache
Apache Flink 是一个有状态的流处理框架。什么是流处理应用程序的状态呢?你可以理解状态为应用程序算子中的内存。状态在流计算很多复杂场景中非常重要,比如:
smartsi
2021-07-27
3K
0
Flink 状态TTL如何限制状态的生命周期
flink
大数据
apache
存储
unix
很多有状态流应用程序的常见需求是能够控制应用程序状态的访问时长以及何时删除它。这篇文章介绍了在 1.6.0 版本添加到 Flink 的状态生命周期时间(TTL)功能。
smartsi
2021-06-29
1.7K
0
Flink 窗口之Window机制
flink
大数据
api
apache
编程算法
数据分析场景见证了批处理到流处理的演变过程。尽管批处理可以作为流处理的一种特殊情况来处理,但分析永无止境的流数据通常需要转变一种思维方式,并使用它自己的专门术语,例如,窗口、At-Least-Once 或者 Exactly-Once 处理语义。
smartsi
2021-02-04
1.3K
0
Flink Savepoints和Checkpoints的3个不同点
flink
大数据
apache
编程算法
腾讯云测试服务
在本文中,我们将解释什么是 Savepoint,什么会使用它们,并就它们与 Checkpoint 的区别进行对比分析。
smartsi
2020-12-29
3.2K
0
Flink单元测试指南
flink
大数据
单元测试
腾讯云测试服务
apache
编写单元测试是设计生产应用程序的基本任务之一。如果不进行测试,那么一个很小的代码变更都会导致生产任务的失败。因此,无论是清理数据、模型训练的简单作业,还是复杂的多租户实时数据处理系统,我们都应该为所有类型的应用程序编写单元测试。下面我们将提供有关 Apache Flink 应用程序的单元测试指南。Apache Flink 提供了一个强大的单元测试框架,以确保我们的应用程序在上线后符合我们的预期。
smartsi
2020-11-11
3.3K
0
Kafka 监控工具之CMAK
jdk
kafka
zookeeper
打包
apache
CMAK(Cluster Manager for Apache Kafka) 是由 Yahoo 开源的 Kafka 集群管理平台。我们可能听到更多的是 kafka-manager。主要是因为误用了 Apache 的商标,所以才从 kafka-manager 改名为 CMAK。
smartsi
2020-10-27
4.3K
0
Stream 分布式数据流的轻量级异步快照
大数据
apache
编程算法
分布式
分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。
smartsi
2019-08-07
1K
0
Flink 内部原理之数据流容错
编程算法
大数据
分布式
apache
kafka
Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下,程序的状态也将最终反映每条记录来自数据流严格一次exactly once。 请注意,有一个开关可以降级为保证至少一次(least once)(如下所述)。
smartsi
2019-08-07
885
0
Flink1.4 保存点之回溯时间
大数据
apache
这篇文章是系列文章的第一篇,数据工匠团队会在这里为大家展示一些Apache Flink的核心功能。
smartsi
2019-08-07
916
0
Stream 对于流处理技术的谬见
大数据
unix
windows
apache
我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。
smartsi
2019-08-07
522
0
ElasticSearch安装与启动
Elasticsearch Service
http
jdk
apache
检查JDK版本之后,我们可以下载并运行Elasticsearch。 二进制文件可以从 www.elastic.co/downloads 获取,过去版本也可以从中获取。 对于每个版本,您可以选择zip或tar存档,或DEB或RPM软件包。 为了简单起见,我们使用tar文件。
smartsi
2019-08-07
953
0
Roaring Bitmap更好的位图压缩算法
编程算法
apache
存储
数据结构
文件存储
Bitsets(也称为Bitmaps)通常用作快速数据结构。不幸的是,他们可能会占用太多内存。为了降低内存的使用,我们经常会使用压缩的位图。
smartsi
2019-08-07
6.1K
0
Flink1.7发布中的新功能
sql
大数据
apache
api
scala
Apache Flink 社区正式宣布 Apache Flink 1.7.0 发布。最新版本包括解决了420多个问题以及令人兴奋的新增功能,我们将在本文进行描述。有关更多的详细信息请查看完整目录。
smartsi
2019-08-07
901
0
Flink 使用Flink进行高吞吐,低延迟和Exactly-Once语义流处理
大数据
数据处理
windows
apache
在本文中,我们将深入探讨Flink新颖的检查点机制是如何工作的,以及它是如何取代旧架构以实现流容错和恢复。我们在各种类型的流处理应用程序上对Flink性能进行测试,并通过在Apache Storm(一种广泛使用的低延迟流处理器)上运行相同的实验来进行对比。
smartsi
2019-08-07
5.4K
0
Exactly once 未必严格一次
分布式
apache
分布式事件流处理已逐渐成为大数据领域的热点话题。该领域主要的流处理引擎(SPE)包括 Apache Storm、Apache Flink、Heron、Apache Kafka(Kafka Streams)以及 Apache Spark(Spark Streaming)等。处理语义是围绕 SPE 最受关注,讨论最多的话题之一,其中”严格一次(Exactly-once)” 是很多引擎追求的目标之一,很多 SPE 均宣称可提供”严格一次”的处理语义。
smartsi
2019-08-07
625
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档