AAAI 独家 | 腾讯AI Lab 现场陈述论文:使众包配对排名聚合信息最大化的 HodgeRank

前言:腾讯AI Lab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议AAAI 2018。腾讯技术工程官方号编译整理了现场陈述论文《使众包配对排名聚合信息最大化的 HodgeRank》(HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation),该论文被AAAI 2018录用为现场陈述报告(Oral Presentation),由中国科学院信息工程研究所、腾讯AI Lab、北京大学等共同完成。

中文概要

众包近来已经成为了许多领域解决大规模人力需求的有效范式。但是任务发布者通常预算有限,因此有必要使用一种明智的预算分配策略以获得更好的质量。在这篇论文中,我们在 HodgeRank 框架中研究了用于主动采样策略的信息最大化原理;其中HodgeRank 这种方法基于多个众包工人(worker)的配对排名数据的霍奇分解(Hodge Decomposition)。

该原理给出了两种主动采样情况:费希尔信息最大化(Fisher information maximization)和贝叶斯信息最大化(Bayesian information maximization)。其中费希尔信息最大化可以在无需考虑标签的情况下基于图的代数连接性(graph algebraic connectivity)的序列最大化而实现无监督式采样;贝叶斯信息最大化则可以选择从先验到后验的过程有最大信息增益的样本,这能实现利用所收集标签的监督式采样。实验表明,相比于传统的采样方案,我们提出的方法能提高采样效率,因此对实际的众包实验而言是有价值的。

英文概要

Recently, crowdsourcing has emerged as an effective paradigm for human-powered large scale problem solving in various domains. However, task requester usually has a limited amount of budget, thus it is desirable to have a policy to wisely allocate the budget to achieve better quality. In this paper, we study the principle of information maximization for active sampling strategies in the framework of HodgeRank, an approach based on Hodge Decomposition of pairwise ranking data with multiple workers.

The principle exhibits two scenarios of active sampling: Fisher information maximization that leads to unsupervised sampling based on a sequential maximization of graph algebraic connectivity without consideringlabels; and Bayesian information maximization that selects samples with the largest information gain from prior to posterior, which gives a supervised sampling involving the labels collected. Experiments show that the proposed methods boost the sampling efficiency as compared to traditional sampling schemes and are thus valuable to practical crowdsourcing experiments.

英文演讲PPT

In this paper, we present a principle of active sampling based on information maximization in the framework of HodgeRank.

Our contributions in this work are three fold:

1. A new version of Hodge decomposition of pairwise comparison data with multiple voters is presented. Within this framework, two schemes of information maximization, Fisher and Bayesian that lead to unsupervised and supervised sampling respectively, are systematically investigated.

2. Closed form update and a fast online algorithm are derived for supervised sampling with Bayesian information maximization for HodgeRank, which is shown faster and more accurate than the state-of-the-art method Crowd-BT (Chen et al.2013).

3. These schemes exhibit better sampling efficiency than random sampling as well as a better loop-free control in clique complex of paired comparisons, thus reduce the possibility of causing voting chaos by harmonic ranking (Saari 2001) (i.e., the phenomenon that the inconsistency of preference data may lead to totally different aggregate orders using different methods).

原文发布于微信公众号 - 腾讯技术工程官方号(Tencent_TEG)

原文发表时间:2018-02-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

大连理工大学在CVPR18大规模精细粒度物种识别竞赛中获得冠军

近日,引人瞩目的国际计算机视觉与模式识别大会CVPR 2018在美国盐湖城落下帷幕。在为期5天的会议中,除了有精彩的口头报告、墙报张贴以及企业展示之外,还有对极...

13320
来自专栏PPV课数据科学社区

符号、联结、贝叶斯,人工智能的17种武林门派

闲逛Twitter的时候,发现一篇来自内容发行平台Medium的文章《The Many Tribes of Artificial Intelligence(多种...

45190
来自专栏数据科学与人工智能

【机器学习】互联网金融时代下机器学习与大数据风控系统

转自36kr 2015年10月4日 随着互联网的发展,互联网金融已成为当前最热门的话题,包括支付、理财、众筹、消费等功能在内的各类互联网金融产品和平台如雨后春...

39760
来自专栏FreeBuf

基于时间和地域构建一个网络诈骗形势模型

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,...

24270
来自专栏数据科学与人工智能

【风控】催收评分和不良贷款市场的机会

本研究的目标是在一家专门从事不良贷款组合的巴西公司254,914名客户的样本中开发一个催收评分模型,使用Logistic回归来识别那些更倾向于偿还不良贷款的客户...

31950
来自专栏数据科学与人工智能

【数据挖掘】机器学习与数据挖掘的学习路线图1

应部分朋友要求,特奉上“机器学习与数据挖掘的学习路线图”,供有兴趣的读者研究。 说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这...

25990
来自专栏AI科技大本营的专栏

机器学习的学习随想01

【AI100 导读】本文是作者在学习机器学习的过程中随手记下的一些随想,内容涉及数学原理、算法分析、系统设计和产业趋势,脑洞随时开放,思路经常穿越,采取微博文体...

37350
来自专栏PPV课数据科学社区

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原...

30170
来自专栏量子位

年度必看AI论文:生成式非对抗网络(停止对抗,用爱学习)

震惊!(本次使用已获UC震惊部授权) 就在昨天,人工智能领域一个开创性的成果出现了:关于生成对抗网络(GAN)的最新论文出炉。很多学者和业内人士,都用震惊二字描...

39740
来自专栏美团技术团队

深度学习在美团点评的应用

前言 近年来,深度学习在语音、图像、自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一。美团点评这两年在深度学习方面也进行了一些探索,其中在自然...

53080

扫码关注云+社区

领取腾讯云代金券