腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SmartSi
专栏作者
举报
270
文章
581607
阅读量
53
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
编程算法
java
spark
api
scala
sql
文件存储
存储
flink
unix
mapreduce
kafka
hive
数据库
hadoop
apache
zookeeper
windows
node.js
python
缓存
Elasticsearch Service
分布式
TDSQL MySQL 版
网站
http
hbase
数据处理
数据结构
javascript
云数据库 Redis
云数据库 SQL Server
html
json
jar
容器
shell
jvm
https
打包
maven
jdbc
bash
xml
analyzer
yarn
tcp/ip
socket编程
linux
bash 指令
容器镜像服务
网络安全
jdk
ssh
正则表达式
hexo
php
css
oracle
github
lucene/solr
ubuntu
腾讯云测试服务
serverless
kubernetes
数据分析
processing
ios
mac os
regex
postgresql
ruby on rails
git
全文检索
批量计算
日志服务
访问管理
消息队列 CMQ 版
数据加密服务
云推荐引擎
mongodb
企业
vr 视频解决方案
rollup.js
开源
压力测试
numpy
sql server
面向对象编程
npm
单元测试
rpc
uml
云计算
任务调度
utf8
raft
数据湖
elasticsearch
fetch
get
iterable
join
key
search
size
storm
task
worker
yaml
搜索
索引
搜索文章
搜索
搜索
关闭
Streaming 101:批处理之外的流式世界第一部分
windows
编程算法
数据处理
分布式
serverless
尽管这些业务需求驱动了流式处理的发展,但与批处理相比,现有的流式处理系统仍然相对不成熟,这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背景信息,再深入了解有关时间详细信息之前先明确饿一些术语的真实含义,并对批处理和流式处理的常用方法进行一些高层次的概述。
smartsi
2022-01-25
490
0
Kafka Connect 如何构建实时数据管道
kafka
json
node.js
api
分布式
Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化,以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统,所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题(Schema 管理、容错、并行性、延迟、投递语义等),每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。
smartsi
2021-09-23
1.6K
0
了解HBase与BigTable
hbase
TDSQL MySQL 版
分布式
unix
数据库
在学习HBase(Google BigTable 的开源实现)的时候,我们面临的最为困难的地方就是需要你重构你的思路来理解 BigTable 的概念。
smartsi
2019-11-27
1.8K
0
图解CAP定理
分布式
编程算法
CAP 定理是分布式系统中的一个重要的基本定理,指出任何分布式系统最多只能具有以下三个属性中的其中两个:
smartsi
2019-11-27
584
0
Stream 分布式数据流的轻量级异步快照
大数据
apache
编程算法
分布式
分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。
smartsi
2019-08-07
999
0
ElasticSearch Scroll游标搜索
Elasticsearch Service
javascript
分布式
在ElasticSearch 分页搜索一文中,我们了解到分布式系统中深度分页。在这里我们再具体的了解一下深度分页,可能带来的问题,以及 ElasticSearch 给出的解决方案。
smartsi
2019-08-07
2.2K
0
Spark2.3.0 创建RDD
spark
java
hadoop
分布式
api
Spark的核心概念是弹性分布式数据集(RDD),RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象:
smartsi
2019-08-07
814
0
Flink 内部原理之数据流容错
编程算法
大数据
分布式
apache
kafka
Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下,程序的状态也将最终反映每条记录来自数据流严格一次exactly once。 请注意,有一个开关可以降级为保证至少一次(least once)(如下所述)。
smartsi
2019-08-07
883
0
4个步骤让Flink应用程序达到生产状态
大数据
文件存储
分布式
uml
这篇文章阐述了 Flink 应用程序达到生产状态所必须的配置步骤。在以下部分中,我们概述了在 Flink 作业达到生产状态之前技术领导、DevOps、工程师们需要仔细考虑的重要配置参数。Flink 为大多数配置选项都提供了开箱即用的默认选项,在许多情况下它们是POC阶段(概念验证)或探索 Flink 不同 API 和抽象的很好的起点。
smartsi
2019-08-07
1.6K
0
分布式事务之两阶段提交(2PC)
分布式
编程算法
在计算机网络以及数据库领域内,二阶段提交(Two-phase Commit)是指,为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法。通常,二阶段提交也被称为是一种协议。在分布式系统中,虽然每个节点可以知道自己的操作是成功还是失败,但却无法知道其他节点的操作是成功还是失败。当一个事务跨越多个节点时,为了保持事务的ACID特性,需要引入一个作为协调者的组件来统一协调所有节点(称作参与者)的操作结果并最终指示这些节点是否要把操作结果进行真正的提交(比如将更新后的数据写入磁盘等等)。因此,二阶段提交的算法思路可以概括为: 参与者将操作成败通知协调者,再由协调者根据所有参与者的反馈情况决定各参与者是否要提交操作还是中止操作。
smartsi
2019-08-07
910
0
Hive Map Join 原理
编程算法
缓存
mapreduce
hive
分布式
首先,让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Reducer 将排序结果作为输入,并进行实Join。Shuffle 阶段代价非常昂贵,因为它需要排序和合并。减少 Shuffle 和 Reduce 阶段的代价可以提高任务性能。
smartsi
2019-08-07
7.6K
0
Exactly once 未必严格一次
分布式
apache
分布式事件流处理已逐渐成为大数据领域的热点话题。该领域主要的流处理引擎(SPE)包括 Apache Storm、Apache Flink、Heron、Apache Kafka(Kafka Streams)以及 Apache Spark(Spark Streaming)等。处理语义是围绕 SPE 最受关注,讨论最多的话题之一,其中”严格一次(Exactly-once)” 是很多引擎追求的目标之一,很多 SPE 均宣称可提供”严格一次”的处理语义。
smartsi
2019-08-07
622
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档