前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

作者头像
机器之心
发布2018-05-08 12:11:10
1.7K0
发布2018-05-08 12:11:10
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

机器之心编译

参与:刘晓坤、路雪

本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端到端的训练。该方法可获取不同标注者的可信度和偏差,并在不同数据集上取得最优结果。

论文链接:https://arxiv.org/pdf/1709.01779.pdf

摘要:在过去几年中,深度学习显著提高了机器学习各个分支的先进技术水平,给机器学习领域带来了变革。然而,随着监督式人工神经网络的规模不断增大,对大型标注数据集的需求量也越来越大。近期,众包成为以可扩展的方式标注大型数据集的一种高效、廉价的解决方案。但这通常需要整合来自不同专业水平的多个噪声标签贡献者的标签。在这篇论文中,我们针对的就是深度神经网络的众包训练问题。首先,我们将介绍最大期望值算法(EM),这种算法同时学习网络中的参数和不同标注者进行分类设置的混淆矩阵。然后,我们提出了一种新型的通用众包层(crowd layer),这个层可以使深度神经网络用反向传播的方式,直接利用不同标注者的噪声标签进行端到端的训练。我们的实验结果表明使用这种方法可以内部获取不同标注者的可信度和偏差,并在不同设置(如分类、回归和序列标注)的各种众包数据集上得到最优结果。

图 1. 具备 4 个类别和 R 个标注者的分类 CNN 的瓶颈结构

表 1:不同分类数据集的准确率结果:狗 vs. 猫和 LabelMe

图 2. 标注者的真实敏感度(true sensitivity)和真实特异度(true specificity)与狗 vs. 猫数据集中的权重矩阵 w^r 对角线元素的对比。

图 3. 权重矩阵 w^r 和对应的混淆矩阵的对比。

表 2. MovieReviews(MTurk)数据集的训练结果。

图 4. 学得的 b^r 参数和标注者的真实偏差之间的关系。

表 3. CoNLL-2003 NER(MTurk)数据集的训练结果。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档