AAAI 2018快报:京东公布基于计算机视觉的电商推荐技术

AAAI会议(Associationfor the Advancement of Artificial Intelligence)是人工智能领域的顶级学术会议,是中国计算机学会(CCF)推荐的A类会议。AAAI专注于推进人们对思想、智力背后机理的科学认识及其在机器中的实现。第32届AAAI会议将于2018年2月2日-7日在美国新奥尔良举行。

京东重大战略“无界零售”提出了零售基础设施智能化的要求,推荐系统作为现代电商零售基础设施的核心技术之一,在京东的各个购物入口都将发挥越来越重要的作用。在这一背景下,京东商业提升事业部成立了智能广告实验室,京东集团副总裁、商业提升事业部总裁颜伟鹏表示,京东智能广告实验室的研究范畴覆盖深度学习、强化学习、自然语言处理和计算机视觉,旨在深入探索计算广告和推荐技术背后的深刻机理,为“无界零售”的实现铺平道路。本文分享的是京东智能广告实验室的最新成果:Telepath推荐模型,该模型相关论文已以标题《Telepath: Understanding Users from aHuman Vision Perspective in Large-Scale Recommender System》在AAAI 2018大会发表。

独立研发Telepath模型,落地京东推荐和信息流广告应用

Telepath模型是一个基于视觉的仿生学推荐模型,它尝试模拟人类在购物决策中的大脑活动,从人类视觉的角度来理解用户,从而达到更佳的推荐效果。这一成果已经在京东推荐和信息流广告这两个最典型的场景落地,取得了显著的线上效果提升。值得一提的是,Telepath的工作完全由京东智能广告实验室独立完成,文章的7名作者都是在京东商业提升事业部工作多年的员工。

  • Telepath:Understanding Users from a Human Vision Perspective in Large-Scale RecommenderSystem

Yu Wang, Jixing Xu, Aohan Wu, Mantian Li, YangHe, Jinghe Hu, Weipeng P. Yan

(王玉,徐吉兴,吴傲寒,李满天,赫阳,胡景贺,颜伟鹏)

业界通用的推荐系统的核心包括检索(Retrieval)和排序(Ranking)两个模块,京东也不例外。在某个用户访问京东网站或APP时,检索模块负责为用户从数以亿计的商品中选择出数百个候选商品的集合,排序模块负责给这些候选商品打分,决定最终呈现给用户哪几个商品。本文主要关注排序阶段,但所述的技术对检索阶段来说是通用。

图1 推荐系统架构

Telapath心灵感应者-让心仪的商品找到顾客

京东拥有2.66亿的活跃用户,数以十亿计的商品库存单元(SKU),这样的业务规模世所罕见。如何把合适的商品推荐给每位用户,节约用户购物时间,增强用户购物体验,是横亘在京东技术人面前的最大难题。

  • 原理

人类的购物决策是非常复杂的大脑活动,研究[1][2]表明,人类擅长从复杂的图像中发现其感兴趣的事物。具体来说,这些事物产生的视觉信号会激活大脑皮层的神经元,通过这些激活的神经元,大脑的特定功能区域受到影响,形成人类的潜意识和表意识。另有研究[3][4]表明,人脑的潜意识和表意识共同影响人类的决策行为。此外,近年来深度学习在很多任务如围棋[5]和图像识别上[6]上已经达到了人类乃至超过人类的表现。

这些研究给我们带来了灵感来设计这样一个排序引擎,它能像人一样提取视觉信号,并从视觉角度来理解用户。参考大脑结构,我们把这个排序引擎分为三个组件:一个是视觉感知模块(VisionExtraction),它模拟人脑的视神经系统,提取商品的关键视觉信号并产生激活;另一个是兴趣理解模块(InterestUnderstanding),它模拟大脑皮层,根据视觉感知模块的激活神经元来理解用户的潜意识(决定用户的潜在兴趣)和表意识(决定用户的当前兴趣);此外,排序引擎还需要一个打分模块(Scoring),它模拟决策系统,计算商品和用户兴趣(包括潜在兴趣和当前兴趣)的匹配程度。

最好的推销员莫过于能猜透用户心思的那些人,我们对这个排序引擎给予同样的希望,为其命名为Telepath,即心灵感应者。

图2 Telepath的模型结构

Telepath的模型结构如图2所示,具体来说,视觉感知模块将用户浏览过的商品序列(图2中的1、2、3…N)通过深度卷积网络映射为激活信号,商品序列只提供商品图像和描述等信息,即用户在浏览推荐页面时能直接观看到的信息,卷积网络我们采用的是自己开发的Inception网络[7]的变种,网络规模更小,但速度更快。同时,视觉感知模块也把推荐候选集中的商品(图2中的C)也通过同一个卷积网络,形成候选商品的激活信号。

兴趣理解模块收集到用户浏览序列的激活信号后,分别通过DNN和RNN,生成两路向量。RNN常用于序列分析,我们用来模拟用户的直接兴趣,DNN一般用以计算更广泛的关系,我们用来模拟用户的间接兴趣。最终,直接兴趣向量和间接兴趣向量和候选商品激活拼接在一起,送往打分模块。

打分模块是个普通的DNN网络,我们用打分模块来拟合用户的点击/购买等行为。最终这些行为的影响通过loss回馈到整个Telepath模型中。

在图2右侧,我们还引入了类似Wide &Deep网络[8]的结构,以增强整个模型的表达能力。

  • 可视化

图3 视觉感知模块对不同商品激活信号的可视化

可视化对理解深度网络的行为至关重要,我们完成模型设计和训练后,考虑了两个维度来做可视化:1)视觉感知模块对视觉信号的敏感程度;2)用户兴趣理解模块对用户兴趣的区分度。我们使用t-SNE来将这两个模块的输出二维化。视觉感知模块的可视化结果如图3所示。

由图3可见,虽然整个Telepath网络并非用商品类目信息来训练,但仍然能够非常好地区分不同的商品。这符合我们的预期,也符合常理,因为卷积网络对相似的输入必然产生相似的输出。

图4 兴趣理解模块对不同用户激活信号的可视化

图4是用户兴趣理解模块的可视化结果,我们分析的是对手机、饼干、沙滩鞋感兴趣的三类用户。可以看出,对三类用户同时做可视化,兴趣理解模块的区分度并不显著,但如果只区分两类用户的话,兴趣理解模块可以做出不错的区分。这也符合常理,人在挑选多样物品的时候,也容易“挑花眼”,但如果只是从两件物品中选一件,一般来说更容易做出较好的选择。

  • 实验

在Telepath之前,京东的全量基准所用的模型和Wide & Deep网络很接近,因此Telepath的离线实验主要是和Wide &Deep网络对比,见图5:

图5 Wide & Deep和Telepath对比(离线)

从图中可见,Telepath的Loss和AUC比起Wide & Deep网络都有一定改善。

Date

Day1

Day2

Day3

Day4

CTR

+0.02%

+2.37%

+1.93%

+2.84%

GMV

+15.04%

+7.81%

-2.36%

+10.05%

Orders

+6.62%

+5.10%

+8.54%

+13.92%

Date

Day5

Day6

Day7

Average

CTR

+0.62%

+2.36%

+0.97%

+1.59%

GMV

+6.77%

+8.36%

+11.48%

+8.16%

Orders

+9.90%

+12.17%

+4.7%

+8.71%

表1 Telepath在某京东App推荐位的上线效果

Date

Day1

Day2

Day3

Day4

CTR

+5.15%

+8.07%

+10.5%

+6.15%

GMV

+ 126.48%

+9.1%

+18.4%

-19.24%

ROI

+129.53%

+14.35%

+14.2%

-17.44%

Date

Day5

Day6

Day7

Average

CTR

+4.63%

+2.11%

+9.48%

+6.58%

GMV

+8.53%

+143.09%

+ 145.74%

+61.72%

ROI

+9.17%

+161.36%

+147.79%

+65.57%

表2 Telepath在某京东合作媒体广告的上线效果

作为一项以应用为目标的基础研究成果,Telepath在京东的诸多场景都有落地,在推荐、广告等实际业务中都发挥了作用。表1和表2分别展示了Telepath在一个京东App推荐位和一个京东广告合作媒体上线的效果,可以看出,在这两种场景下,点击率(CTR)和GMV都有显著的效果提升。

  • 结语

为了更好地服务京东的数亿级用户,Telepath还在不断进化,后续的成果也将在适当时机陆续公布。Telepath团队的几位成员习惯坐地铁下班,Telepath的思路就来自一次地铁上的讨论。这样的团队在京东还有很多。“无界零售”不仅在影响京东的每个用户,也在影响京东的每个技术人,“无界零售”对技术提出的更高要求,会迫使我们在基础研究上不断追赶学术界,在应用上不断将最新的AI技术落地到京东的各项产品中,为用户提供更好的服务。京东对核心技术的公布,也表达出了开放的姿态,“无界零售”必将对业界造成深远而深刻的影响。

注:Telepath论文的抢鲜版本可点击“阅读原文”下载

学术交流联系:wangyu5@jd.com

参考文献

[1] Brewer, J. B.; Zhao, Z.; Desmond, J. E.; Glover, G. H.;and Ga- brieli, J. D. 1998. Making memories: brain activity that predicts howwell visual experience will be remembered. Science 281(5380): 1185-1187.

[2] Çukur, T.; Nishimoto, S.; Huth, A. G.; and Gallant, J. L.2013. Attention during natural vision warps semantic representation across thehuman brain. Nature neuroscience 16(6): 763-770.

[3] Galli, M.; and Gorn, G. 2011. Unconscious transfer ofmeaning to brands. Journal of Consumer Psychology 21(3): 215-225.

[4] Watanabe, N. and Haruno, M. 2015. Effects ofsubconscious and conscious emotions on human cue–reward association learning. Scientific reports, 5.

[5] Silver, D.; Huang, A.; Maddison, C. J.; Guez, A.; Sifre, L.; Van DenDriessche, G.; Schrittwieser,J.; Antonoglou, I.; Pan- neershelvam, V.; Lanctot, M.; and others. 2016.Mastering the game of go with deep neural networks and tree search. Nature 529(7587): 484-489.

[6] Taigman, Y., Yang, M., Ranzato, M.A. and Wolf, L. 2014.Deep- face: Closing the gap to human-level performance in face verifi- cation.In Proceedingsof the IEEE conference on computer vision and pattern recognition, 1701-1708.

[7] Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.;Anguelov, D.; Erhan, D.; Vanhoucke V; and Rabinovich, A. 2015. Going deeperwith convolutions. In Proceedings of the IEEE conference on computer vision andpattern recognition, 1-9.

[8] Cheng, H. T.; Koc, L.; Harmsen, J.; Shaked, T.;Chandra, T.; Aradhye, H.; and others. 2016. Wide & deep learning for recom-mender systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems, 7-10.

原文发布于微信公众号 - 京东技术(jingdongjishu)

原文发表时间:2018-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

不学好数学也想当数据科学家?不存在的

1543
来自专栏Bingo的深度学习杂货店

图像识别——突破与应用

最近,图像识别领域发布了白皮书,简单翻译一下做个总结。 ---- 目录 [1] Introduction      1.1 Exponential Growt...

1.4K11
来自专栏大数据文摘

注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”

一边是今年的NIPS迎来了创纪录的8000多篇投稿,一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认,机器学习发展已进入瓶颈期。

790
来自专栏数据派THU

谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文长度为8311字,建议阅读10分钟 Jeff Dean回顾了谷歌大脑团队过去一年...

4285
来自专栏AI科技评论

视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?

AI 科技评论按:这里是雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 原标题:...

3104
来自专栏智能计算时代

神经网络计算爆炸

深度挖掘的公司开始为特定应用定制这种方法,并花费大量资金来获得初创公司。 具有先进并行处理的神经网络已经开始扎根于预测地震和飓风到解析MRI图像数据的许多市场,...

3365
来自专栏PPV课数据科学社区

数据挖掘与生活:算法分类和应用

“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手...

4914
来自专栏AI科技大本营的专栏

四个月速成全栈机器学习?这位黑人小哥三个半月就开始找工作了

程序员转型AI、机器学习需要学多久?1年?3年?这是绝大多数考虑转型的人,从一开始就要认真思考的问题。 光说不练在这里没用,咱们还是要看真实的故事,来看看黑...

3738
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

4073
来自专栏新智元

【Nature】拥抱深度学习,不要过多苛求黑箱

【新智元导读】Nature 昨日刊发新闻特写,针对AI,特别是深度学习中的黑箱问题的来龙去脉进行分析。AI 中神经网络深度学习方法的黑箱问题是科学家们一直在尝试...

4176

扫码关注云+社区

领取腾讯云代金券