首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >杨光信解析京东应对双11背后的“京东大脑”

杨光信解析京东应对双11背后的“京东大脑”

作者头像
用户1737318
发布2018-06-06 10:47:50
1K0
发布2018-06-06 10:47:50
举报
文章被收录于专栏:人工智能头条人工智能头条

今年初启动的京东大脑项目,其诞生与刘强东“效率是订单的核心竞争力”的理念一脉相承,目前主要产品是个性化推荐,已经覆盖PC端和移动端(618的数据,京东APP+微信+手Q三个平台占到订单总量的60%)。京东集团研发部研发总监杨光信用“一二三四”来概括京东大脑的全景。

  1. 一个目标,即用人工智能(AI)技术提高京东电商的运营效率。
  2. 解决连接用户和商品的两个主要问题:如何让用户最快地找到最合适的商品,如何让各种各样的商品最快地找到最合适的消费者。
  3. 服务对象为三类主体:为京东用户提供个性化的体验,为供应商实产品设计、精准营销的方案,以及提高京东平台的仓储、配送、售后等各方面的运营效率。
  4. 四个技术层面:数据、模型、系统和应用。

杨光信详解了四个技术层面。

第一个技术层面是高质量的电商数据。京东以自营为主,杜绝商家刷单等现象,数据真正代表用户意图或者消费习惯各个方面。京东大脑基于十几年积累下来的用户数据,做很多的数据挖掘、分析,针对用户、对产品、商家、小区分别进行画像。用户的群体能够得到非常准确的描述,然后可以在上面实现个性化体验和营销等功能。基于用户数据可以生成的比较准确的用户画像,能够描述用户各种自然属性,如性别、年龄、购买的偏好、购买力等。京东大脑经过细致的分析还发现,不同的用户群体,也能够表现出共同的特征,比如说一个范围一个小区或者一个写字楼里,可以把所有的用户做一个整体来看,表现出来的特征跟其他的地区有非常高的区分。所以,基于小区画像,也可实现个性化的一些效果。

第二个层次是机器学习的模型。电商产品推荐的本质是呈现的排序,特别屏幕有限的移动端,需要从海量商品中精挑细选出一些商品,然后根据各种不同的因素进行排序,这与大而全的通用搜索完全不同。杨光信表示,京东大脑目前用到的排序因素有好几百种。为了实现各种排序的功能,京东做了大量的机器学习建模工作,利用用户在京东网站上留下的数据,包括他自己或者网上其他的数据构建相应的模型,对单个的模型进行预测、评估,并综合运用。京东还预测某个具体的商品随着季节、天气、热点事件、区域等不同因素的销量变化情况,借助这些模型可以优化采销、配送方面的流程。

第三个层面是系统。有了数据和模型,京东希望用机器而不是人工的方法来寻找一个最优解。杨光信认为,人看到的范围是毕竟有限,机器能把各种不同的因素综合起来找到最优解,系统能够提供所需要的高性能。他透露,截至目前,京东每秒钟要做的预测请求是好几万的量级,将来随着京东的发展,业务规模越来越大,对系统性能、底层计算平台的要求也会越来越高。希望系统能够智能,通过数据、模型来完成业务,并且性能是可扩展的。

第四个层面是基于数据、模型、系统搭出来的各种各样的应用,解决用户的痛点和平台运营的痛点。比如供货商开发出一个新的产品,他希望能够在京东上找可能会对该产品感兴趣的用户,发放一些试用品或者优惠券去吸引这些用户,基于京东大脑的数据、模型和系统的基础,商家可以找这些潜在用户,有针对性地做好进一步的筛选、转化。

京东大脑并非大而全的战略投资,亦非由DNN实验室牵头做,而是京东有十几年的数据,在业务需求方面有积累,在技术存储备上有一定的基础,可谓顺势而为。正如张晨所说,京东大脑不是想来玩一个技术游戏,而是在针对业务的需求和挑战。

根据用户行为历史记录进行召回、排序,获得最佳的推荐结果必须要避免重复推荐,还需要模型能够随着用户情况的变化而更新。京东大脑根据商品的不同属性分别做相似、相关的召回,这也需要用户画像技术有新的提升。单纯的用户画像按照年龄、性别等属性区分用户是有局限的,比如同一个账户为多个消费者购买商品,每次购买都会涉及不同消费类型的概率和分布。京东利用用户画像,结果随着用户画像动态的特征,和一些相关联的东西出来。杨光信认为,现在京东有大量的数据分布在各个系统里面,随着时间的推移,有针对性给用户推送东西是可以做到更准确的。

另外一个问题是冷启动用户。杨光信介绍,以前的做法,是看别的用户在看什么或者买什么就给他推荐,或者干脆编辑选好的东西。这能解决一部分的问题,但是没有对冷启动用户做好服务。小区画像能够部分解决这个问题。在移动客户端可以很容易获得地理位置,根据该位置周围的情况去猜用户可能感兴趣的东西。PC端因为国内IP到实际地理位置的转换不那么准确,精确度要低一些。之后京东大脑可以实时捕捉到用户行为信息,然后调整推荐结果,随着用户和系统交互增多,就会达到老用户同样的体验。

用机器代替人力是大势所趋,但目前机器的智能程度还不能完全承担大脑的工作。比如机器模型训练工作中,特征工程极为重要。如何从用户的交易数据或者浏览数据中提取特征,人工团队根据不同的数据采用不同的工具和手段,根据过去销量从有用户留下来的数据去做一些分析、挖掘,这些特征能达到的效果比机器单纯用原始数据的效果好很多。杨光信表示,京东现在的特征是百分之百人工设置的,未来会尝试通过深度学习的方法从原始数据挖掘一部分特征出来,以解决人工在选择的特征方面有可能带来的一些局限。

关于系统性能,京东大脑要怎么考虑的不是发挥一台机器的作用,而是让更多的机器并行的能力充分发挥出来。这涉及到如何把一个问题把它分解成多个机器上,让多个机器协同执行,最后产生一个单个机器所生成不了结果出来。以决策树的过程为例,要用训练样本一层一层往下分解,每一层往下分解的时候,把训练样本以及每一个特征的熵或者递减的值计算出来,计算量非常非常大,对于并行计算化有非常多的挑战。目前在开源领域以及很多大公司都有这方面的尝试,但是京东也做了很多的努力。另外一个例子是用随机森林的方法,用很多树共同投票的结果,最后相当于综合性的结果,每一个树不需要那么多样品,一颗树在一个比较小的机器规模上可以训练出来,所以把森林里很多的树分配到大的集群上,训练出成百上千的规模预测模型出来。这样相对单个决策树模型在精度方面能够有非常大的提高,同时对计算系统和数据的要求能够降低。

如前所述,张晨表示,数据是京东的核心竞争力,而发挥数据价值的京东大脑才刚刚起步,未来还会有更多的应用。例如,京东目前还在试验一种机器巡视的方法,基于后台的监控,对流量或者用户特定行为进行分析,检测一些不正常的交易(如羊毛党)。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档