首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

大数据实时流式数据处理是大数据应用中最为常见的场景,与我们的生活也息息相关,以手机流量实时统计来说,它总是能够实时的统计出用户的使用的流量,在第一时间通知用户流量的使用情况,并且最为人性化的为用户提供各种优惠的方案,如果采用离线处理,那么等到用户流量超标了才通知用户,这样会使得用户体验满意度降低,这也是这几年大数据实时流处理的进步,淡然还有很多应用场景。因此Spark Streaming应用而生,不过对于实时我们应该准确理解,需要明白的一点是Spark Streaming不是真正的实时处理,更应该成为准实时,因为它有延迟,而真正的实时处理Storm更为适合,最为典型场景的是淘宝双十一大屏幕上盈利额度统计,在一般实时度要求不太严格的情况下,Spark Streaming+Flume+Kafka是大数据准实时数据采集的最为可靠并且也是最常用的方案,大数据实时流式数据采集的流程图如下所示:

02

未来几年,图计算或许是一条很好的赛道

在互联网时代,图数据越来越多地呈现出海量和动态等特性,静态图计算的模型和方法难以应对数据处理的需求。而流式图计算能基于实时变化的数据,流式地构建动态图数据关系,并基于动态变化的图数据之上实时地进行分析、计算和挖掘,是图计算主流技术分支。 InfoQ 作为技术媒体对技术趋势保持着格外的关注,本次我们采访了蚂蚁流式图计算团队负责人潘臻轩。流式图计算是蚂蚁大规模图计算系统 TuGraph 的重要组成部分,可以有效地挖掘数据关系变化的趋势和异动,承担着重要的近线异步图计算等功能。潘臻轩为我们分享了蚂蚁流式图计算的应用经验,以及图计算在未来的发展趋势。

02

分布式数据库在光大银行关键业务系统的应用探索

大家好,我是来自中国光大银行信息科技部的王志刚,非常高兴有机会给大家分享一些分布式数据库在光大银行的应用探索。我目前在光大银行银行信息科技部负责数据库管理团队,在加入光大银行之前在三星、索尼爱立信,还有 Oracle 工作过,一直在负责数据库相关的工作。在近十年我和我的团队一直负责光大银行总行的数据库运维,这里面既包括我们的交易型数据库,也包括 MPP,还有 Hadoop 这样的大数据运维。在运维的过程中,我们一直也在思考现在的数据库有哪些问题、面临哪些风险、数据库技术的发展趋势是什么,这一点是很重要的,因为它决定了我们为什么要转向分布式,我们希望分布式能替我们解决哪些问题,它能够解决哪些问题和它不能够解决哪些问题。

04
领券