前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Bing研究人员开发新的方法,用于自动收集高质量AI训练数据

Bing研究人员开发新的方法,用于自动收集高质量AI训练数据

作者头像
AiTechYun
发布2018-07-27 11:37:48
4260
发布2018-07-27 11:37:48
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

AiTechYun

编辑:chux

微软Bing团队的研究人员已经开发出一种用于训练机器学习模型的高质量数据生成方法。CVPR会议之前发表的博客文章和论文中,他们描述了一个系统,该系统能够以准确的一致性区分准确标记的数据和标记不准确的数据。

研究人员写道:“获取足够高质量的训练数据通常是构建基于人工智能服务的最具挑战性的部分。通常,由人类标记的数据质量很高(错误相对较少),但成本高昂,无论是金钱还是时间方面。此外,自动方法允许大量成本低的数据生成,但会有更多错误标记。”

正如Bing团队解释的那样,训练算法需要收集数十万甚至数百万个数据样本,并手动将这些样本分类,这对于数据科学家来说无疑是艰巨的任务。一个经常使用的捷径是通过将类别列表放在一起从搜索引擎中抓取数据,对列表中的每个项目执行网络搜索并收集结果(例如,在构建可区分不同种类食物的计算机视觉算法的语料库过程中,可以执行“寿司”的图像搜索)。

Bing团队的模型清除了来自语料库的噪音数据。

但并不是每个结果都与搜索类别相关,并且训练数据中的错误可能会导致机器学习模型中的偏差和不准确性。减少错误标记问题的一种方法是通过训练第二种算法找出不匹配数据并纠正它们,但这是一个处理密集型解决方案; 必须为每个类别训练一个模型。

Bing团队的方法采用了AI模型,可以实时纠正错误。在训练过程中,系统的一部分,类嵌入矢量学习选择最能代表每个类别的图像。同时,模型的另一部分,查询嵌入矢量学习将示例图像嵌入到相同的矢量中。随着训练的进行,系统的设计方式使得如果图像是类别中的一部分,则类别嵌入向量和查询图像向量变得越来越相似,如果不是类别的一部分,则进一步分离。

该系统最终识别它用于为每个类别找到高度代表性图像的模式。该团队说,它甚至可以在没有手动确认标记的情况下进行工作。

该团队写道,“这种方法对于为图像相关任务清理训练数据非常有效,我们相信它同样适用于视频,文字或演讲。”

关于此研究的博客文章和论文网址如下:

blogs.bing.com/search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data-breakthrough

https://arxiv.org/pdf/1711.07131.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像搜索
图像搜索(Image Search)基于腾讯云的图像解决方案,集成了图像检索、超细粒度元素挖掘和图像匹配等技术,通过以图搜图的方式在用户自建图片库中快速检索出与输入图片相同或相似的图片集合,可应用于图片版权保护、电商侵权审核、相似素材查询、同款商品搜索与推荐等场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档