当前社会,人们越来越享受互联网带来的种种便利,同时也对互联网产品有了更高的要求,比如更快的响应速度和更稳定的服务;另一方面,互联网产品在不断发展的过程中也面临着非常多的技术挑战,比如服务化、分布式、并行计算等,那么,Akka在其中的哪些领域可以一展身手呢?
技术背景
在产品不断发展的过程中,一个不可忽视的挑战是大数据带来的存储和计算问题,存储暂且不表(Akka不直接提供数据存储的方案,当然,在Akka的基础上也可以实现类似的分布式文件存储系统),我们来看看数据的计算问题。
在一个系统中,数据的来源非常广,比如用户交易数据、历史记录、系统日志等,当数据积累到一定程度后(变成Big Data),我们就得考虑挖掘其价值。
以电商为例,当用户打开浏览器输入域名并按下回车键的那一刻开始,系统就默默地在记录用户数据了,比如访问时间、终端设备类型、用户ip等;当用户看到某个商品并点击链接后,系统会收集并更新商品点击数(当然,也有可能是广告);当用户满怀期望地加入购物车后,系统会把该商品记录到用户的“意向清单”;当用户毫不犹豫地完成支付时,系统已经生成订单数据并考虑向你推荐其他匹配商品了(笑)。这是笔者虚拟出来的一个数据收集场景,在实际项目中,收集的数据维度只会比这更多,生成的数据量也会更大。很多大型的电商平台(比如亚马逊、淘宝等)都有自己的“个性化推荐系统”,该系统会根据大量的历史数据(比如浏览、购买、交易,评论等)预测(计算)出用户可能的喜好,以此做出合理的商品推荐,进而提升购买转化率。
面对大量的计算任务,系统怎样才能快速实时地得到想要的结果呢?很显然,依靠单核CPU的处理能力已不足以进行如此密集的计算(摩尔定律的失效),一般情况下,我们的解决方案是:把计算拆分成多个子任务实现并行(单机多核或分布式集群)执行。在Java中,我们可以通过Fork/Join等框架来实现单机的并行程序,但是假如想要在单机或分布式都能以相同的模式去处理计算,很明显这些框架是远远不够的,除此之外,我们还必须考虑多节点计算时的容错,分布式通信等问题。
由此可见,要从头实现这样一个解决方案并非易事,很多时候,我们希望选择一款设计精良,易于使用的框架来处理这些问题,而Akka正是为此而生!
Akka是什么
Akka是一款高性能高容错性的分布式&并行应用框架,遵循Apache 2开源许可,底层通过JVM上另外一个流行的语言Scala实现,提供Java&ScalaAPI(本书采用Java进行代码演示)。它基于经典的Actor并发模型(即所有的消息都是基于Actor组件进行传递,后面我们会作详细介绍),拥有如下特点:
基本上,Akka从底层就解决了我们大多数分布式&并行程序常见的难题,让工程师更专注于业务实现,同时,它也保留了多个扩展接口及配置,便于满足个性化定制的需要!
目前Akka已经在多家互联网&软件公司广泛使用,比如eBay、Amazon、VMWare、PayPal、阿里、惠普、豌豆荚等,所涉行业包括游戏、金融投资、医疗保健、数据分析等。
使用场景包括:
总之,对高并发和密集计算的系统,Akka都是适用的!
Akka采用Scala开发,运行于JVM之上,提供了Scala和Java两种API,目前所属Lightbend公司(原名Typesafe)。它实现了经典的Actor模型,同时也提供了丰富的组件,比如邮箱(MailBox),路由(Routing),持久化(Persistence),网络(包括远程、集群)等等,在底层对分布式&并行模式进行了高度且统一的抽象,使得工程师用很少的代码,就可以实现一个完整的分布式应用。本节我将为大家介绍Akka的整个体系结构以及相关概念。
Actor模型
Actor模型最早在1973年由Carl Hewitt提出,它高度抽象了分布式并行程序的运行模式,从底层屏蔽了线程和锁机制的管理,为开发者提供了简单可依赖的开发方式。
Actor模型认为,并行计算的最小单元就是一个Actor实例,而每个实例拥有自己的状态和行为,在一个大型系统中,可能存在成千上万个Actor实例,他们之间通过消息的方式进行通信,每个Actor都能发送消息给其他Actor,也能从其他Actor接收消息。当我们在执行某个计算任务时,会给对应的Actor实例发送一个相关的消息,该Actor在接收消息后开始执行计算任务,由于整个消息通信的过程是异步的,所以不用等到Actor执行完毕整个过程才能执行下一步(发送消息后会马上返回),这种异步通信的方式大大提高了程序的响应性。
Actor异步消息通信如图1-3所示。
图1-3 Actor的异步消息通信
体系结构
Actor是Akka最核心的概念,也是最基本的执行单元,所以对Actor管理和监控的有效性是极为重要的。在Akka中,每个Actor都有自己的监管对象,即该Actor的创建者,它们通常会负责子Actor的失败处理,另外,某些Actor也需要对生命周期进行监控(比如该Actor的终止),以便及时的响应并作正确处理,这些监督和监控者本身也都是一个Actor。在Akka中,整个Actor体系被抽象成一个ActorSystem,它是一个层级的结构,拥有公共行为的配置和管理。
在ActorSystem基础上,Akka也提供了一些配套的组件,比如持久化,Http服务,网络服务等,他们都是构建高可用分布式应用不可或缺的部分,基本架构体系和周边产品如图1-4所示。
图1-4 Akka基本架构体系及周边产品
Actor组件
在Akka中,Actor是一个高度抽象的对象引用,它包含以下几个要素:
邮箱 (Mailbox)
每个Actor都有自己的邮箱,所有其他Actor发送过来的消息都会进入该邮箱。Akka自带多种邮箱类型,也提供自定义邮箱的接口。
路由(Routing)
消息除了通过普通的Actor发送之外,也可以通过路由进行发送。当通过路由发送消息时,我们可以根据需求来选择不同的路由策略,比如轮询、广播等。
持久化(Persistence)
任何程序都可能有失败的可能,即便是JVM如此强大稳定的平台也都一样。当程序出错, JVM崩溃时,任何关键状态的丢失,对我们后续的业务来讲都可能是致命的打击,所以状态数据的持久化变得非常重要。Akka提供了Actor状态的持久化方案,以便我们在必要时恢复数据。
网络(远程和分布式集群)
网络功能是实现远程Actor和分布式集群的基础,这其中包含I/O、网络通(TCP/UDP)、序列化配置、分布式通信协议(Gossip)、节点(node)管理、集群分片等内容。
HTTP模块
Akka提供了简单易用的Http模块,支持完整的Http服务端与客户端开发,可以帮助我们快速构建性能极强的Rest Web服务。
相关开源项目
Akka具有高性能、可扩展、设计友好等诸多优点,非常被适合用来作为分布式应用的基础框架,而且由于对Http有非常好的支持,也让它在web服务领域占有一席之地。目前业界已经有多个基于Akka实现的开源项目,项目类型涵盖了Web开发、微服务、分布式文件或计算服务等。下面是Akka中两个具有代表性的开源项目:
Play框架
Lagom框架
在目前IT界,最火爆的概念要属"微服务"了,微服务的理念是:把业务功能拆成小的、独立的单元,他们之间能够互相通信而且支持水平扩展。Lagom就是这样一款微服务框架,它基于异步的消息驱动,对分布式集群、持久化(如 JPA、NoSql)都有良好的支持。同时,它也拥有完整的集成开发环境,非常便于在线部署和管理。
随着互联网的高速发展,开发分布式&并行应用将不再是某些巨头公司的“专利”,而对大部分研发团队来讲,从零开发自己的分布式架构又会面临诸多挑战,此时选择Akka作为分布式并行服务的基础框架将是极好的! Akka底层采用Scala语言实现(JVM上另外一款明星语言),它基于Actor模型,在底层帮助开发者屏蔽了异步、消息通信、容错处理、网络服务、分布式集群等实现细节。在Akka基础上,也诞生了Play、Lagom等应用框架,让开发者更容易打造自己的高可用分布式系统。
——本文摘自《Akka实战:快速构建高可用分布式应用》
Akka实战:快速构建高可用分布式应用