菜鸟作为国内物流行业的领军企业,业务线覆盖海内外。其业务特征为劳动力密集,合作企业众多,包裹投递链路多样化且节点众多,全链路协同。
菜鸟网络高级技术专家徐强在ArchSummit全球架构师峰会北京站上,介绍了在菜鸟数据中台及运营平台建设历程中所遇到的挑战、数据与运营平台的融合历程,例如在具体的业务场景里数据中间件该如何使用,结合一些物流场景案例分享给大家。(以下为演讲内容整理)
一个物品从工厂生产出来后,到被运送到买家手里是一个较长的链路,工厂运送到商家,然后通过运输运送到分拨,再从分拨运输到下一个节点的分拨。通常从一个城市到另外一个城市是由两个分拨来负责的,一个城市负责收货(集包),一个城市来负责发送(传账)。分拨之后,下放到站点和门店,这时候再由快递员送到各位手里,或者菜鸟驿站,这就是一条完整的链路。在这个过程中,物流企业要做很多事情。
首先是设计服务产品。比如说,从北京到杭州这条物流线路叫做一个物流的服务产品;
上图是一个物流企业的业务领域分析图,通常称它为战略地图。数据产品要协助的业务目标一般分成8大块,包含财务、客户层面,过程管理和资源管理等4个方面:
下面重点讲一下配送全链路业务,是指从商家仓出来一直到用户手上的这段派送履约链路,它包含4个主要的实操流程,分别是分拨实操、运输实操、站点实操和快递员实操。把4种实操管理放到三个系统里面,这三个系统分别是分拨管理、运输管理、末端站点实操管理。
用户一般有体感是在末端,也就是说去柜子里面取包裹这个环节。以上这些是整个数据平台或者数据中台在物流领域的数据来源的基础。
数据平台和运营平台,面临的最大挑战是什么?干了多少活,花了多少钱,用了多少人?就三个基础问题,看起来好像很简单。但是这三个基础问题对应到物流这个场景下,它所面临的问题是非常复杂的。一般来说对应三个具体的运营动作,分别是运营管理、考核管理和经营管理。
这些问题在数据层面可以进一步细化,首先是包裹引擎,包裹引擎会针对到每一秒钟处理的包裹数量,下一步就是预测需要多少车,以及未来可能会发多少货。进一步推演就是全链路仿真系统。
全链路仿真系统是什么?首先在物流工厂里面,特别是在小促或者大促期间,在供应链那一侧会有大量的数据推送过来,我们大概能预测到在某一个时间点,某一个环节大概要发多少货。我们把这个数据推到一个模仿物流的仿真系统里,在这种仿真系统里做计算,最终达到优化全链路和整个快递网络的效果。优化结果会产出一个决策系统,这个决策系统目前仍然在建设中。
那么整个业务产品是怎么实现的?
数据平台和运营平台会碰到什么样的技术挑战呢?有一个很经典的场景,如果需要求从A点到B点,路由过程中的聚合的包裹数量以及明细的包裹数量,那么怎么做?最传统的办法是做两张表,一张表作为横表,列出所有明细来。但是,A点到B点的聚合操作非常困难,计算量也非常大。那么再做一张纵表,把所有的数据都聚合到节点上,然后去做分析。这时候一般会使用一个OLAP 数据库,通过circle的能力把这些东西全都统合出来。
这是我们的第一代架构,它的性能不是特别好,速度也非常慢。最大的问题是,这些数据需要通过各层逐一的聚合起来,有数据源、原始数据、明细数据、汇总数据、以及指标数据,但是这些数据是逐层汇集上来的,在物流场景里,汇总的时候会出现一系列问题,那么我们怎么去解决这个问题?
这就是全链路的物流,它的整体架构分成5层:
分别是数据层,用于挖掘数据,处理层用于数据的预处理,引擎层利用仿真算法对数据进行特殊化处理。控制层里会有指标中心,还有一些算法能力在上面浸透出。最上面就是应用层,比如可以在分拨中心进行包裹的使用,包括数据的使用等。这其中引擎最大的特色在于虚实合一,即把算法的一部分仿真能力也放到引擎中,然后再通过实际数据对整个算法模型进行提升。
在这几年做物流业务过程中,最大心得体会就是宏观、微观一致性,什么是宏观?微观一致性?整个项目流程中有很多业务方,如运输业务方,有分拨中心业务方等各方需求。阿里的数据体系建设已经很完善了,所以出问题的地方更多是在逻辑部分,也就是我说的数据、你说的数据、我认为的数据和我看到的数据是不一样的,为什么不一样?
这是一个非常有趣的事情。运营同学制定一个指标,这个指标会有一个计算口径,计算口径与线下的作业情况可能并不是完全一致的,很多大规模劳动力密集型的企业都会存在这样的问题,为什么呢?因为在一个厂里,可能每一个工作人员扮演的是不同的角色,如果没有一套强大的计算数据引擎去支撑的话,是根本没有办法找到准确数据的。
菜鸟网络的这套系统刚上线时,数据也是对不上的,需要排查线下和线上设定的是什么目标?这才是数技术真正发挥用武之地。
整个数据平台依托于阿里的整个报表系统,这确实是一个比较好的报表系统,它不需要写circle,而且操作简单。只要对业务足够理解,很快就可以把报表系统搭建起来。我们利用这套报表系统,对各个域进行了封装。很多这些报表已经不是我们开发人员做的,全部是由完全不懂得计算机编程知识的业务方同学自己做的。
对于数据平台和运营平台,我认为未来肯定是可以融合的。在物流这个场景中怎么实现融合呢?
首先我们必须有这几个比较重要的系统,财务系统、考核系统,然后过程管理、工艺管理。这些系统核心会对应到物流上面某一个实操环节,然后对应到我们这里的话,大概是17道环节。这是我在一年前整理的,现在也会发生一些变化。比如说称重、出库这些环节,会具体到用了多少人,花多少钱。那么,再和这些包裹数量进行结合,就会得到一个对于物流企业的完整的数据认识。这些不光数据平台要关心,同时运营平台也要同样关心。
接下来谈一谈,我认为未来数据平台和运营平台融合的样子。
未来数据平台需要做的首要事情就是管理,让整体的物流管理和线上所设想的物流管理是一样的。需要做的事情就是全链路的在线化,引用我们另外一个同事说的,5个在线:
有了这些数据之后,下一个可以做的事情就是运营管理。我们现在在做的事情,如智能排班,工作人员的工作量需要根据当天预测到的包裹量进行提前安排。目前中国的劳动力也越来越贵,所以就会有大量的临时工,这种临时工的弹性怎么保持?这就需要通过数据的方法计算出来,然后提前来进行排班。以此来保证投入产出比,这属于运营管理的一个重要环节。
有了基础运营管理以后,我们才能进入到下一个环节,叫做数据分析。我认为它的核心在于发现问题, 具体执行是由运营系统来执行的,所以这是两个完全不一样的工作,但是要很好的协同在一起。
最后的核心是,公司要有一个比较好的财务报表,通过运营系统和数据系统的合作,同时对应到运营的同学,以及管理更高层的财务同学,他们之间的通力合作,才能得到一个比较好的企业盈利效果。
作者介绍:徐强,曾就职于 IBM STG,主要做分布式计算软件。2016年的时候去了菜鸟,致力于数据技术在菜鸟网络的应用,以及劳动力密集型产业的数据平台和运营平台的融合建设。
领取专属 10元无门槛券
私享最新 技术干货