如何构建优质的推荐系统服务?

作者丨gongyouliu

来源 | 大数据与人工智能(ID:ai-big-data)

任何一个优质的软件服务都必须考虑高性能、高可用(HighAvailability)、可伸缩、可拓展、安全性等5大核心要素,推荐系统也不例外。

所以,我们会围绕这5个点来说明,怎么构建高效的推荐服务。

本文会从推荐服务背景介绍、什么是优质的推荐服务、构建优质服务面临的挑战、一般指导原则、具体策略等5个部分来展开讲解。

希望读者读完本文后,对什么是优质的推荐服务能有初步了解。同时,我也试图为读者提供相应的方法和策略,期望本文可以作为大家的参考指南。

推荐服务背景介绍

推荐产品是通过推荐服务来为用户提供个性化推荐能力的,我们可以从广义狭义两个角度来理解推荐服务。

从广义上讲,推荐服务是指整个推荐业务,包括数据收集、数据ETL、推荐模型构建、推荐推断、推荐web服务、推荐前端展示与交互等(见下面图1)。

图1:推荐系统的业务流

图1中,大数据平台包含的数仓、计算平台等模块很多公司(特别是初创公司和中小型公司)都是基于开源的大数据平台(Hadoop、Spark、Hive等)来构建的,这些系统本身(或者通过增加一些组件)的设计是具备高可用、可拓展、可伸缩、安全等特性的。

同时,我们的数据ETL、推荐模型训练、推荐模型推断是基于数仓、计算平台基础之上构建的,也需要具备上面这些特征,这部分我们在这里不做介绍, 在未来分享推荐算法时会单独讲解。

从狭义上讲,推荐服务是指用户通过终端(手机、Pad、电视等)与推荐系统的web模块的交互, 即图1中红色虚线框中的部分(其实Kafka管道不属于直接参与Web服务的组件,但是我们是通过这个模块来跟更底层的数据处理算法组件解耦合,通过它来对接计算出的推荐结果,所以也包括进来了)。

本文我们将主要精力放到关注推荐系统Web服务上, 即狭义上的推荐服务。

用户与终端交互的过程见下面图2,用户通过终端请求推荐服务,推荐服务模块通过返回相关的推荐结果给到终端,终端将推荐结果展示给用户。用户与终端的交互虽属于视觉及交互设计范畴,与推荐工程师的工作无直接关系,但是会直接影响到用户的体验,也在我们讨论之列。绿色虚线框中是真正的推荐系统Web服务过程。

图2:用户与推荐系统交互的数据流向

后文所有关于构建优质服务策略的主题,都围绕这里所指的狭义的推荐服务来展开。

简单介绍完什么是我们本文要讨论的推荐服务, 那么什么是优质的推荐服务呢?我们又可以从哪些维度来衡量推荐服务是否优质呢?

什么是优质的推荐服务

推荐服务作为一类软件服务,遵循通用的软件设计原则。

在复杂的软件设计中我们需要从高性能、高可用、可伸缩、可拓展、安全性等5个维度来衡量软件架构的质量,对于推荐系统也一样,推荐系统也属于一类非常偏业务的较复杂的软件系统,我们也会从这5个方面来说明什么是优质的推荐服务。

高性能

一般用响应时间(用户触发推荐页面到返回推荐结果的时间)来衡量高性能,通常服务需要在200ms之内返回结果,否则用户肉眼就可以直观感受到慢了, 好的系统可以做到50ms之内返回结果。这个时间当然是越短越好,相应技术实现成本和难度都会更大。

当然,网络会存在各种偶发情况,即使推荐服务性能很好,我们也没法保证每个用户请求都可以在这个时间内响应, 所以一般可以采用百分之多少的请求可以在多少毫秒内返回(比如99%的请求可以在75毫秒内返回)来衡量高性能。

高可用

所谓高可用,从字面理解就是用户可以一直使用而不出现问题。

由于软件服务是基于现代芯片及硬件基础上构建的,硬件会产生故障宕机,软件也会由于bug或者偶发情况等出现问题,所以一般故障是几乎无法避免的,特别是对于大规模分布式服务,共同服务于同一服务的计算机集群越大,出现故障的可能性也会越大。

这里举个例子:比如飞机是最安全的交通工具,但是一两年基本都有一些飞机相关的事故,主要是全球每天有大量的航班飞行,虽然单次飞行出问题概率非常小,但一两年累计下来至少一次飞行出问题的概率就很大了,学过概率统计的读者应该很好理解。

当这些故障出现时,软件系统将无法响应用户请求,导致提供的服务不及时、不稳定、不可靠,甚至不可用。

计算机行业的高可用一般是通过故障出现后的影响时长、等级及故障恢复的快慢来衡量一个软件系统是否高可用。如果故障不频繁、故障影响面不大、在很短的时间就恢复正常了就是高可用的系统,否则就不是高可用的系统。

很多大型网站,比如淘宝,百度基本达到了99.99%的高可用了,算下来一年大约只有0.88小时不可用。

推荐系统本身就是一项软件服务,对于推荐系统来说,高可用就是推荐服务是否稳定高效的为用户提供服务。

可伸缩

我们可以这样来理解伸缩性, 将一个模块或者系统类比为一条生产线(如富士康中苹果手机生产线),当有大量的订单需求时,可以通过扩充生产线来应对大规模的业务需求,这就是生产线的伸缩性。

推荐系统需要面对海量用户的推荐请求, 同时也要为每个用户存储相关的推荐结果。可伸缩性是指是否可以通过不断增加服务器(在该服务器上部署相关的推荐服务)的手段来应对不断新增的用户及在服务高峰期暴增的请求。这种增加服务器来提供无差别的服务,必须是对用户无感知的,不会影响用户体验。

互联网产品(特别是toC互联网产品)是基于规模效应的一种生意,发展用户是公司最重要的事情,在用户发展阶段,用户是爆发增长的,这时原有的推荐服务是无法满足快速增长的用户需求的, 所以要求推荐服务具备伸缩能力是必然的。

由于推荐系统需要存储用户推荐结果, 因此相应的存储数据库也需要具备可伸缩的能力,当前很多NoSQL数据库都是具备可伸缩能力的。

可拓展

互联网产品是需要快速响应用户需求变化的,所以对产品做调整,或者增加新的产品形态是常有的事情。

可拓展性指的就是推荐服务可以快速响应业务需求变化,非常容易对服务做调整修改,可以非常方便地增加新的推荐业务。

比如,公司在前期没有接入广告,等做商业变现时,需要在信息流推荐中插入广告,这时就需要对信息流推荐产品做调整,整合广告投放能力。

安全性

互联网是一个开放的服务体系,我们需要采用技术手段确保网站数据不会轻易被恶意攻击,防止数据被盗。

衡量推荐服务安全性的主要指标是针对各种恶意攻击及窃密手段是否有有效的应对方案,同时是否可以很好的保护用户隐私,特别是今年315曝光了很多数据黑产的利益链,用户数据安全性只会越来越重要,相信不久的将来,就会有更完善的法律保护措施出台。

我们已经介绍完了好的服务设计需要具备的5大要素,这些要素是任何一个互联网服务都必须关注的,更需要我们基于已有的人力资源、经验、投入成本、业务特性等做好平衡。构建优质的推荐服务,也需要关注上面的5点,需要在这5大要素之间做好取舍和平衡。

相对于后台服务,推荐服务是一种较特殊的软件服务, 那么对于推荐服务是否可以很容易做到上面5点呢?会面临哪些挑战呢?

设计推荐服务面临的挑战

相对于其他后台系统来说,推荐系统有很多不一样的地方。

对于个性化推荐来说,给每个用户的推荐都是个性化的,所以生成的推荐结果都是不一样的,这些推荐结果需要事先存储下来,方便用户请求时快速反馈给用户,因此需要大规模的数据存储系统来支撑。

特别是随着短视频、新闻APP的火爆,在这些产品中用户消耗单个标的物的时长较短, 因此为用户提供近实时的推荐服务,并跟紧用户兴趣的变化,试图占用用户的碎片化时间是这类产品设计中非常关键的要素,也是产品是否具备核心竞争力的先决条件。

具体来说,构建优质的推荐服务,会面临如下挑战:

需要存储的数据量大

个性化推荐为每个用户存一份推荐数据,数据量随着用户线性增长。

一般toC互联网产品都是通过规模效应盈利的,所以发展用户是互联网公司最重要的事情之一,做得好的产品用户规模一定会在一定时期内爆发增长,因此数据存储也会急速增长,需要更多的软硬件资源来容纳新增的大量数据。

当用户量大到一定程度时,一台服务器无法装下所有用户的推荐结果,一台服务器也无法为用户提供web接口服务,这时就需要采用分布式技术,需要数据库及web服务系统具备很好的伸缩能力。

需要快速响应用户请求

随着新闻、短视频等消费用户碎片化时间的应用层出不穷,越来越多的推荐系统采用近实时的推荐策略,以提升用户体验,同时让用户沉浸其中,增加自己产品的使用时长,方便更好地拉投资或者做变现。

实时给用户提供个性化推荐,这个过程中需要实时学习用户的短期兴趣,并基于用户的短期兴趣实时更新用户的推荐列表,这为整个推荐系统业务设计开发带来极大压力和挑战。

接口访问并发量大

个性化推荐由于每个用户推荐结果都不一样,很难利用现代CDN技术来对推荐结果加速(主要是命中率太低),用户的请求一般都会回源,对后端系统产生较大的访问压力。

总的说来,有可能在极短的时间产生流量风暴。特别是对有些产品,由于产品自身的属性,在特定时段访问流量极大,比如视频类应用,一般是晚上6-9点是访问高峰,这时的流量可能会暴涨50%以上。

业务相对复杂

推荐业务为了给用户提供好的体验,需要涉及到很多方面。

比如,需要具备根据一定业务规则做运营的能力。需要为用户过滤掉已经看过的或者曝光过的内容,需要对在推荐结果中下线某个标的物(如视频中某个节目下线,电商中某个商品下线),需要实时根据用户行为更新用户兴趣推荐。这些较复杂的逻辑,对设计优质服务也是一种挑战。

既然推荐服务的设计有上面这么多挑战,那我们要怎么设计好的推荐服务呢?是否有一些一般的原则可借鉴呢?回答是肯定的。

构建优质服务的一般原则

在讲具体的方法和策略之前,我们先简单介绍一下做到优质服务需要了解的一般思路和原则,这些原则是帮助我们构建优质服务的指导思想。

模块化(SOA)

SOA(Service Oriented Architecture)即面向服务的架构,主要目的在于服务重用,通过将服务解耦,提升整个系统的可维护性。

在设计系统时, 尽量减少系统的耦合,将功能相对独立的部分抽提出来,通过数据交互协议或者接口与外界交互。这样设计的主要目的是减少系统的复杂度,方便独立对某个模块优化和升级,同时,当系统出现问题时也可以快速定位。

最近几年很火的微服务是对SOA思想的延伸,是一种轻量级的SOA解决方案,将服务拆解为更细粒度的单元,更易于系统维护和拓展。

数据存储

互联网行业有所谓空间换时间的说法, 意思是通过将需要的结果预先计算好并存储下来,等用户请求时就可以直接返回给用户而不需要再去计算,虽然占用了存储空间,但是大大加快了查询速度。

而数据缓存就是一种空间换时间的做法,先将用户需要的数据(对推荐系统来说,就是返回给用户的最终推荐结果)事先计算好在数据库中存起来。当用户请求时,可以直接给到用户。

涉及到缓存,缓存命中率就必须要关注了,如果一个查询不会经常查到,缓存下来其实是没有太多好处的,因为以后也不会经常用到了。

个性化推荐产品每个用户的推荐结果都不一样,做缓存的价值是没有那么大的。但是对于关联推荐,每个标的物关联的标的物列表在短期(可能是一天)是不变的,这时就可以充分利用缓存的优势了。

负载均衡

负载均衡(Load Balance),就是将请求均匀分担到多个节点上执行,每个节点分担一部分任务,整个系统的处理能力跟节点的数量成线性相关,通过增加节点可以大大提升整个系统的处理能力。推荐接口会大量采用负载均衡技术。

异步调用

举个简单的例子,你去银行办业务,拿到号后需要排队,如果你一直看着屏幕等待你的号出现,这就是同步。如果你在等待的同时用手机处理工作邮件,等轮到你的号了银行语音提示你去办理业务就是异步。

从这个简单例子可以看到,异步可以提升系统(这个例子就是你的大脑)的处理效率,而不必在一件事情上浪费时间。

在推荐服务中可以大量采用异步的思路,比如将推荐结果插入数据库时,可以采用异步插入,提升插入的效率,响应接口请求时也可以采用异步处理。

由于异步不需要双向确认,大大提升了效率,但是也可能由于没有确认,导致部分处理请求失败(比如某个用户的推荐结果由于各种未知原因未插入数据库)。

后面会讲到推荐业务是可以容忍一定的错误的(不像涉及钱的会员等业务必须准确无误),同时推荐业务需要处理大规模的数据(如T+1的个性化推荐,在一两个小时内需要为每个活跃用户更新推荐结果,如果用户规模很大,这个过程是很耗时的), 所以采用异步可以大大提升效率。

分布式及去中心化

分布式网络存储技术是将数据分散地存储于多台独立的机器上。

分布式网络存储系统采用可扩展的系统架构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但解决了传统集中式存储系统中单存储服务器的瓶颈问题,还提高了系统的可靠性、可用性和扩展性,这种组织方式能有效提升信息的传递效率。

通过将系统、数据或者服务分布于多台机器上,首先可以增强整个系统的处理能力,同时也可以降低整个系统的风险。

去中心化是互联网发展过程中形成的一种内容或服务组织形态, 是相对于“中心化”而言的新型网络内容的生产过程。在计算机技术领域,去中心化结构使用分布式核算和存储,不存在中心化的节点,任意节点的权利和义务都是均等的, 系统中的数据块由整个系统中具有维护功能的节点来共同维护,任一节点停止工作都不会影响系统整体的运作。

推荐系统的web服务和数据存储都可以采用分布式和去中心化的思想利用相关开源系统构建,如CouchBase数据库就是分布式去中心化的数据库。

分层思想

分层跟模块化思想类似,最大的区别是各个层之间是有直接的依赖关系的,分层一般也是根据逻辑结构、数据流、业务流等来分,即使是同一层内,也是可以做更细粒度模块化的。

分层的目的是让系统逻辑结构更清晰,便于理解、排查问题。推荐系统根据数据流就可以简单分为数据生成层、数据存储层、数据服务层,后面会详细介绍。

讲完了设计优质服务的一般思想,那我们就来详细讲解一下具体有哪些策略可以帮助我们设计优质的推荐服务。

可行策略

我们在第一节中对推荐服务的范围做了简单限定,在第二节对优质服务的5个维度做了简要说明,结合第四节的基本原则,我们在本节来详细说明怎么设计优质的推荐服务,有哪些具体的策略和方法。

设计优质推荐服务的目的是希望更好的服务于用户, 提升整个系统的效能,最终提升用户体验。我们还是从高性能、高可用、可伸缩、可拓展、安全性5个维度来展开介绍。

高性能

为了能够提供高性能推荐服务,我们可以从如下维度来优化推荐服务模块,以提升推荐服务的响应速度,给用户更好的交互体验。

CDN缓存

CDN(Content Delivery Network,即内容分发网络)是一个非常成熟的技术,通过部署在各地的边缘服务器来对内容进行加速。我们也可以利用该技术来加速推荐服务。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190419A0D68600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券