学界 | 专家标注的数据少就少吧,普通人标的数据现在也可以用了

AI 科技评论按:对于缺乏高质量标注数据的专业应用,除了继续花钱标数据之外,常用方法似乎也就只有 ImageNet 预训练 + 任务专用数据 fine-tune,众包让外行去标注更多数据拿来训练是万万不敢的。不过 IBM 的这项最新研究就打破了这个禁忌,普通人标注的数据也可以用来训练医疗影像分析模型。AI 科技评论把 IBM 研究院 Reseach Fellow Simone Bianco 撰写的介绍文章编译如下。

今日,我的IBM团队和加州大学旧金山分校Gartner实验室的同事在《自然方法》期刊上发表了一项具有创新性的研究成果,该成果允许我们从并非专家标注的数据生成数据集,并把它用于机器学习训练。我们的方法可以让 AI 系统从非专家生成的数据进行学习,并且达到与从专家生成的数据一样好的学习效果。为此,我们开发出一个叫 Quanti.us 的平台,非专家可以在上面分析医学影像(生物医学领域的常见任务),进而生成标注数据。我们的平台拥有一整套完整的算法,专门设计用来正确地解析这种带有噪声而且不完整的数据。一旦将这些技术结合使用,将能够有效拓展机器学习在生物医学领域的应用。

非专家标注、存在噪声的数据集

极为有限的高质量标注数据集一直以来都是机器学习发展的瓶颈。通过创建可以从低质量标注数据集中提供准确分析结果的算法,以及建立可以高速采集这样的低质量标注数据的系统,我们可以帮助缓解该瓶颈。分析含有我们感兴趣的特征的图像就是一个绝佳的例子。让专家对图像进行标注虽然准确度高但耗时良多,再者,以对比度分割(contrast-based segmentation)和边缘检测(edge detection)为代表的自动分析技术只有在严控的实验条件下才表现良好,一旦实验条件出现变化,就可能会出现不可靠的分析结果。

由非专家标注的图像集噪声较多。这十名非专家试图标识出图像中的深黑色圆圈,即细胞核。然而他们的标注结果(以橙色显示)之间并不是完全一致。我们的算法能够从这堆噪声数据中推测出共识轮廓(以紫色显示)。我们最后将图像的共识轮廓与专家标注的结果(以绿色显示)进行对比

拥抱众包吧。我们通过 Quanti.us 众包获得同一张图像的标注的速度要比一位专家分析快上10-50倍。不过正如大家所料,非专家标注的数据含有很多噪声——有些成功识别到了目标,有些则偏离了目标。为此,我们开发出了一种算法处理这种有噪声的数据,可以分别根据命中与非命中的聚合情况来推断出特征的正确位置。当我们把这种“众包式”数据集用来训练深度卷积回归网络时,我们发现在准确率与召回率方面,网络的表现与通过“专家式”数据集训练出来的网络并无二致。随着论文的发布(https://www.nature.com/articles/s41592-018-0069-0),我们也相应公开了算法的源代码(https://bitbucket.org/sujoykb/quantiusdetectioncode/src)。

在细胞工程学科中的应用

图像分析在定量生物医学领域起到核心作用。很多年以前,我们与合作伙伴宣布成立由国家科学基金会资助的细胞工程中心(CCC)——这是一所志在开创细胞学科新领域的技术中心。细胞工程中心一直在不遗余力促成不同学科之间的合作,如机器学习、物理、计算机科学、细胞分子生物学、基因体学等,以推动细胞工程学科的发展。我们的目标是研究并创建可用作自动化机器的细胞(或者点对点传感器,以获取各种有关生物实体与其所处环境之间关系的重要信息。我们通过图像分析技术准确识别细胞内部单元的位置与大小。不过,即使我们采用最先进的图像分析技术,得到的细胞亚结构分析结果依然存在许多“噪声”,导致无法针对细胞成分进行下一步操作。我们的技术可以利用噪声数据预判细胞结构的正确位置,从而更好识别那些对潜在药物靶标生成有贡献的细胞器。

我们相信我们的算法是构建复杂AI平台所不可或缺的关键一步。在早期系统还需要适度的人工干预,主要由生物学家负责把关一些可能在训练阶段出现的失误,以进一步提升系统的性能。除此之外,我们也认为该方法未来有机会应用于生物学以外的同样缺乏高质量标注图像的领域。

via IBM Research, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-08-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

智能识别技术 让计算机看懂世界

互联网发展之初受到网络带宽、数据存储等相关技术的限制,信息传播以单模态形式为主,如文字报道、图像相册等。进入大数据时代,信息传播变得丰富多彩,人们从互联网中同时...

254100
来自专栏目标检测和深度学习

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

35750
来自专栏AI研习社

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

411110
来自专栏AI科技大本营的专栏

AI大行其道,你准备好了吗?——谨送给徘徊于转行AI的程序员

作者 | 章华燕(金桥智慧科技) 前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT...

34750
来自专栏量子位

问答Goodfellow:没有样例能不能训练机器学习算法?

李杉 编译整理 量子位 出品 | 公众号 QbitAI ? 从图像和语音识别到自然语言分析,神经网络已经在很多领域大展身手。过去几年,它们的精确度已经几乎可以与...

28030
来自专栏CDA数据分析师

一文读懂机器学习,大数据/自然语言处理/算法全都有!

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外...

27080
来自专栏机器之心

业界 | 深度学习真的万能吗?理解深度学习的局限性

选自venturebeat 作者:MARIYA YAO, TOPBOTS 机器之心编译 参与:蒋思源、李亚洲、韩小西 深度学习较其他机器学习方法在各类任务中都表...

33160
来自专栏数据魔术师

周志华最新演讲:深度学习为什么深?有多好的人才,才可能有多好的人工智能

23370
来自专栏携程技术中心

干货 | 深度学习在携程攻略社区的应用

? 携程攻略社区是携程旗下的旅游攻略类社区,致力于为旅行者提供出行指南和资讯服务。依托携程2.5亿用户总量,社区日活跃用户超过500万,并汇集3000万条真实...

25280
来自专栏小文博客

性感与色情有多远——你不知道的图片鉴黄那些事儿

44750

扫码关注云+社区

领取腾讯云代金券