Airbnb利用深度学习增强平台的搜索建议

编译:chux

出品:ATYUN订阅号

在线预订平台Airbnb拥有超过500万的房源,以及成千上万的旅游,徒步旅行和其他旅行体验。这些需要大量的筛选,Airbnb公司认为AI可以伸出援助之手。

在论文“Applying Deep Learning To Airbnb Search”中,该公司的研究人员描述了在两年的时间里,他们实现了一个复杂的神经网络,在Airbnb的网络和移动应用程序中,以提高搜索结果的相关性。

该报告紧随Airbnb的内部AI系统,将设计草图转化为产品源代码,以及机器学习驱动的语言系统,将列表评论翻译成客人的母语。

“搜索排名应用程序是Airbnb最大的机器学习成功案例之一。大多数初始收益都是由梯度提升的决策树模型推动的,”他们写道,“然而,随着时间的推移,收益趋于稳定。本文讨论了应用神经网络以试图打破这一局面所做的工作。”

正如研究人员所解释的那样,大多数客人首先在Airbnb的网站上搜索特定地理区域的房屋。这些搜索返回从Airbnb的数百万中抽样的有序列表。

最初,手动的评分功能确定哪些房屋和房间在前列。最终,一个梯度提升决策树(GBDT),即一个识别和排列预测因素的模型取代了评分功能,研究人员称这一转变导致“Airbnb历史上家庭预订的最大改进之一”。

但随着在线预订的收益趋于平稳,该团队将注意力转向AI。

Airbnb不仅仅依赖一个AI系统。它采用了一种算法的“生态系统”,可以预测主人接受客人预订请求的可能性,以及客人对旅行或高度体验的评价。他们接受了用户交互训练,记录了搜索,每个模型都可以访问它们。一旦经过训练,新模型将进行测试,以确定他们是否在预订方面实现了统计上显着的增长。

Airbnb的第一个AI搜索系统为更复杂的搜索系统奠定了基础。第二个采用LambdaRank,一种应用有监督机器学习来解决排名问题的算法,而最终模型深度神经网络(DNN),考虑了大约195个特征,包括价格,设施和历史预订计数;启用Airbnb智能定价功能的商家信息的价格;以及列表与最近查看的客人的相似度。

当然,这并非完全顺利的。模范训练是一种反复试验的事情。团队处理管道的第一次迭代,以逗号分隔值(CSV)格式向TensorFlow模型提供数据,仅使用了一小部分图形卡处理能力,大约25%(优化带来了17倍的加速,并将利用率提高到90%左右)。

Airbnb团队测试的其中一个神经网络使用与列表相对应的唯一ID作为特征。团队的想法是将ID编入嵌入(映射到实数矢量的特征),这将嵌入每个列表的独特属性,就像Netflix和亚马逊采用的推荐系统一样。但正如研究人员解释的那样,事实证明这是不可行的,嵌入需要每个项目大量的数据,并且列表受到来自物理世界的“约束”。

他们写道:“即使是最受欢迎的列表,也可以在一年中最多预订365次,而且每个列表的典型预订量要少得多。”

让事情变得更具挑战性,并非所有趋势都是显而易见的,至少,一开始并非如此。列表的长视图似乎与测试中的预订相关,但是当同时预测预订概率和长视图时间的模型在线部署时,它不会导致上升。该团队推测,长期观点可能受到各种因素的驱动,例如高端但价格高的列表,具有难以解析的长描述的列表,或者极其独特且“有时幽默”的列表,以及其他原因。

在特色工程方面,该团队的调查产生了一个先前未考虑的影响入住率的因素:列表具有不同的最低停留要求,有时延长到几个月。他们发现了地理偏好,比如旧金山西海湾南部的位置比跨越桥梁的位置更受欢迎,后者往往交通拥堵频发。

研究人员写道:“在无处不在的深度学习成功故事中,我们开始处于乐观的高峰期,认为深度学习将成为GBDT模型的替代品,并为我们带来惊人的收益。很多初步的讨论都围绕着保持其他一切不变,并用神经网络取代现有的模型来看看我们可以获得什么样的收益,随着时间的推移,我们意识到转向深度学习并不是替代模型,而是关于扩展系统。因此,它需要重新思考模型周围的整个系统。”

论文:arxiv.org/pdf/1810.09591.pdf

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

Google发布“多巴胺”开源强化学习框架,三大特性全满足

强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋...

9620
来自专栏PPV课数据科学社区

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

本文为你分享Google产品经理关于机器学习工具的讲座概要。 最近,Google Brain员工,TensorFlow产品经理Zak Stone在硅谷创业者社群...

29840
来自专栏量子位

互联网产品经理需要懂哪些机器学习知识?

安妮 编译自 HackerNoon 量子位 出品 | 公众号 QbitAI 现在,很多产品经理、技术经理和设计师都开始研究机器学习。但机器学习对产品的设计、支持...

37250
来自专栏量子位

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

王瀚宸 编译自 South Park Commons博客 量子位 报道 | 公众号 QbitAI 最近,Google Brain员工,TensorFlow产品经...

32050
来自专栏量子位

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

安妮 编译自 arXiv 量子位 出品 | 公众号 QbitAI 出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇。 比如...

39650
来自专栏FD的专栏

什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

8520
来自专栏新智元

谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架

最近 OpenAI 在 Dota 2 上的表现,让强化学习又大大地火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却一直遭到不少抱怨,比...

42530
来自专栏新智元

【2017深度学习框架大事记】PyTorch成TensorFlow最大竞争对手,微软、亚马逊、Facebook 合作联盟对抗谷歌

来源:towardsdatascience.com 作者:Indra den Bakker 编译:刘小芹 【新智元导读】2017年,深度学习框架领域出现了许多新...

41160
来自专栏人工智能

生成人工智能:创意专家新的强大工具

人工智能可以以惊人的速度,效率和逼真度生成新的数据模式。在过去的几年里,人工智能通过算法生成可以以数字形式呈现的任何对象已经司空见惯。到2019年,大多数领先的...

22260
来自专栏数据科学与人工智能

【数据挖掘】常用的数据挖掘方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡...

31160

扫码关注云+社区

领取腾讯云代金券