亚马逊利用新的AI训练技术促进信息检索,无需大量手动注释的数据

支持搜索引擎的信息检索模型如果使用机器学习进行训练,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的所有数据。

亚马逊Alexa部门的科学家详细介绍了一种方法“Content-Based Weak Supervision for Ad-Hoc Re-Ranking”,可以为需要较少人工监督的模型铺平道路。这些可能会将训练数据集的大小从数万个条目增加到数百万个条目,从而产生性能更好的系统。

正如团队解释的那样,基于AI的检索算法通常在查询和两个文档上进行训练:满足用户搜索信息的相关文档,以及相似但不相关的文档。文档由人类手动标记为相关或不相关,并且在训练期间,AI系统学习最大化它们分配给处理样本的相关性分数之间的差异。

相比之下,研究人员的方法利用了这样一个事实,即大部分信息检索训练数据、新闻文章和维基百科条目已经与它们所介绍的文章和章节中的相关文本相关联。换句话说,他们假设标题和标题可以代替搜索字符串用于训练目的。

该团队首先从纽约时报的在线存储库和维基百科中收集了数百万对文档标题对。从每对中,他们使用查询和相关文本(以及与查询相关但与相关文本相关性较低的文本)来训练机器学习模型。

然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库,以建立基线,并应用一种算法为每个查询识别相关和非相关文本。最后,他们用一组大约25000个手工注释的样本,以及从测试数据中通过算法选择的样本补充了AOL的数据集。

为了证明方法的有效性,该团队分别在四个测试集——纽约时报,维基百科,AOL和手工注释集中分别训练AI系统,并使用一种名为标准化折现累积增益(nDCG)的指标,对每种方法前20个结果的累积相关性进行评分。

在基线上,AOL数据集和名为位置感知卷积循环相关网络(PACRR)的AI架构的组合得到了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统针对难以与给定新目标域中的数据区分的例子进行训练时,分数提高了35%。

团队表示,“通过使用该方法,可以在没有行为数据和有限的域内数据的情况下,在新的域上有效地训练神经排序模型。”

论文:

arxiv.org/pdf/1707.00189.pdf

End

本文分享自微信公众号 - ATYUN订阅号(atyun_com)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户5637037的专栏

棋盘游戏游戏在人工智能游戏学习中的教育与研究

原文标题:General Board Game Playing for Education and Research in Generic AI Game Le...

12630
来自专栏用户5637037的专栏

机器学习工作流的两阶段优化

原文标题:Two-stage Optimization for Machine Learning Workflow

11430
来自专栏用户5637037的专栏

量子版分类决策树构造算法C5.0

原文标题:The Quantum Version Of Classification Decision Tree Constructing Algorithm ...

11330
来自专栏萝卜大杂烩

TensorFlow 基础实战

Tensorflow 是干嘛的,就不过多赘述了,小伙伴们可以访问官网来详细了解 https://www.tensorflow.org/

11730
来自专栏7DGroup

7DGroup 第二次技术交流活动圆满结束

2月23日下午,由 7DGroup 举办的“7DGroup 第二次技术交流活动”在北京北二环举办,活动已圆满结束,感谢各位讲师、同学以及没有到场的各位同学的关注...

9240
来自专栏数据派THU

最全面的卷积神经网络介绍,都在这里了(附代码)

神经网络由具有权重和偏差的神经元组成。通过在训练过程中调整这些权重和偏差,以提出良好的学习模型。每个神经元接收一组输入,以某种方式处理它,然后输出一个值。如果构...

36240
来自专栏用户5637037的专栏

无特征集检测早产儿脑电图突发事件的机器学习

原文标题:Machine learningwithout a feature set for detecting bursts in the EEG of pr...

14650
来自专栏用户5637037的专栏

奖励推进:基于最大因果熵原理的转换政策

原文标题:Reward Advancement: Transforming Policy under Maximum Causal Entropy Princi...

14330
来自专栏数据派THU

重磅!《深度学习 500 问》已更新,GitHub 标星 2.6W(附完整下载)

几个月前,红色石头发文介绍过一份在 GitHub 上非常火爆的项目,名为:DeepLearning-500-questions,中文译名:深度学习 500 问。...

16420
来自专栏用户5637037的专栏

巴赫涂鸦:可实现的大规模机器学习音乐创作

原文标题:The Bach Doodle: Approachable music composition with machine learning at sc...

16920

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励