首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货 | 携程机票实时数据处理实践及应用

然而,互联网时代的来临,高吞吐的实时数据处理也成了在线平台的刚需,这也极大促进了实时计算框架的发展。...一、流数据处理框架 流数据处理框架按照其实现的方式,也可以分为逐条处理和微批量(micro-batching)处理两种(如图1所示),Storm和Flink属于前者,Spark Streaming属于后者...Flink和Spark则既可以支持批处理,也可以支持流处理,但两者对数据处理的设计似乎正好相反,Flink会把所有数据处理当成流数据来处理,即使处理静态的有界数据;Spark则将所有数据处理转化为批处理...auto.leader.rebalance.enable=true,让partitionLeader的分布更均衡 10、num.io.threads配置成min(2*disk_num , cpu_core+1),以达到较高的IO处理速率 三、携程机票实时数据处理架构实践及应用...图2 携程机票实时数据处理架构 图2为携程机票当前采用的实时数据处理技术栈。在实时处理框架选择上,我们采用了Storm和Spark Streaming,主要针对不同时延需求的业务场景。

1.2K50

美团点评基于Storm的实时数据处理实践

本文将从目前主流实时数据处理引擎的特点和我们面临的问题出发,简单的介绍一下我们是如何搭建实时数据处理系统。...特别需要注意的一点,在数据处理的过程中需要我们自己来剔除已经处理过的数据,因为 Storm 的语义会可能导致同一条数据摄入两次。灰度发布期间(一周)对数据完整性进行验证,数据完整性为100%。...实时数据平滑处理 数据预测层:实时的数据预测可以帮助我们对到达的数据进行有效的平滑,从而可以减少在某一时刻对集群的压力。...实时数据计算策略 策略层:Key/Value 模式更适应于实时数据模型,不管是在存储还是计算方面。...为了商家更好的决策,用户更好的体验,在业务不断增长的情况下,对实时数据的分析就需要做到更全面。所以实时数据分析还有很多东西可以去做。

1.2K110

分布式计算技术之流计算Stream,打通实时数据处理

它是一个对实时性要求极高的计算模式。如果数据处理不及时,就会很容易导致过时、没用的结果。...从这些分析中可以看出,使用流计算进行数据处理,一般包括 3 个步骤,如下图所示: ? 一,提交流式计算作业。 流式计算作业是一种常驻计算服务,比如实时交通监测服务、实时天气预报服务等。...流计算适用于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景。为了及时处理流数据,流计算框架必须是低延迟、可扩展、高可靠的。...数据处理后可能输出新的流作为下一个 Bolt 的输入。每个 Bolt 往往只具备单一的计算逻辑。...MapReduce 可以说是一种批量计算,与我们今天介绍的用于实时数据处理的流计算,是什么关系呢? 虽然流计算和批量计算属于两种不同的计算模式,但并不是非此即彼的关系,只是适用于不同的计算场景。

1.7K20

海量数据处理

海量数据处理是基于海量数据上的存储、处理、操作。 所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。...虽然,传统的数据库系统可以通过分区的技术(水平分区和垂直分区) ,来减少查询过程中数据输入输出的次数以缩减响应时间, 提高数据处理能力, 但是在海量数据的规模下,这种分区所带来的性能改善并不显著。...主要特性:   ● 分布式   ● 基于column的结构化   ● 高伸展性 2 海量数据处理 海量数据处理就是如何快速地从这些海量数据中抽取出关键的信息,然后提供给用户...并行计算解决方案: 解决大规模数据处理的方法之一就是并行计算。将大量数据分散到多个节点上,将计算并行化,利用多机的计算资源,从而加快数据处理的速度。...2) MapReduce MapReduce是谷歌在 2004 年提出的应用于大规模集群进行大规模数据处理的并行计算模型。

1.3K10
领券