科学家提出更加灵活的机器学习方法

据2015年10月美国麻省理工学院新闻,该校科学家将在2015年12月的神经信息处理系统年会上提出一种更加灵活的机器学习方法,该方法能够加强语义相关概念之间的联系。

在试验中,研究人员发现使用他们训练策略的机器学习算法可以更好地预测用户在Flickr网站应用于图像的标签。研究人员认为,当有很多的可能的类别时,传统的方法仅使用每一类的数据来训练该类的模型,这对所有其他类别都是不利的,因为这些类之间存在语义相关性。该研究团队利用语义相近类别的数据来训练模型。

(1)相近计分

通过梳理Flickr图像中经常同时出现的识别标签来量化语义相似性的概念,如阳光、水和影像。两个词的语义相似性是它们同时出现的频率的函数。

一般地,预测Flickr标签的机器学习算法尝试识别始终对应于特定标签的视觉特征。对于模型训练中的每一标签,如果算法预测正确,则获得得分;否则进行惩罚。对于与正确标签语义相关的不正确标签,MIT研究人员的算法获得部分得分。例如,一张水景图片被标记为“水”、“船”和“阳光”。在传统机器学习中,将此图标记为“水”、“船”和“夏天”的系统和将此图标记为“水”、“船”和“犀牛”的系统一样不会获得得分,但是MIT开发的系统将会获得得分。这个得分是标签“夏天”和“阳光”同时出现在Flickr数据库中的似然函数。

(2)人为错误

蕴含语义相似性的系统在预测语义相似性方面有较好的预测性,这听起来有些循环论证。但是,当网络用户试图查找在线图片时,一般的主题相关可能比精确的关键词更重要。

用户指定任意给定的Flickr图片的标签可以是各种各样的。根据语义相关性自动聚类生成的标签比人为定义的标签可能更有用。例如,MIT研究人员的测试集中的一张图片描述了一个穿着制服戴着头盔沿着丘陵小道骑着山地自行车的人。实际的标签是“春天”,“比赛”和“训练”。但是图片中的树是光秃秃的,草是棕色的,标签“比赛”和“训练”都不可能是正确的。MIT研究人员开发的系统预测此图的标签为“道路”,“自行车”和“选拔赛”,然而传统机器学习算法预测为“狗”,“冲浪”和“自行车”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2015-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习之旅

伪标签半监督学习

之前在训练YoutubeNet和DCN的时候,我都发现平台用户中基础用户的信息数据缺失率特别高,比如性别一栏准确填写的不足60%,所以我一直想调研一下有没有什么...

882
来自专栏IT派

干货 | 机器学习之必知必会6个点

导语:过去两年中,我曾经多次折服于机器学习的魅力。但每当我决定尝试新事物时,经常会不得不重新学习某些概念和课程,其实大部分学习就是这样一个过程。在学习机器学习这...

3285
来自专栏AI科技评论

开发 | CNN 那么多网络有何区别?看这里了解 CNN 发展历程

AI科技评论按:本文原载于知乎, AI科技评论获作者授权转载。 深度学习算法最近变得越来越流行和越来越有用的算法,然而深度学习或者深度神经网络的成功得益于层出不...

3305
来自专栏AI科技大本营的专栏

技术 | 入门机器学习必须知道的6件事,你可未必都了然于心了

翻译 | AI科技大本营(rgznai100) 参与 | shawn 过去两年中,我曾经多次折服于机器学习的魅力。但每当我决定尝试新事物时,经常会不得不重新学习...

3429
来自专栏机器学习算法与Python学习

机器学习(1)之入门概念

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 机器学习是什么 机器学习是什么?实际...

26110
来自专栏磐创AI技术团队的专栏

十分钟一起学会ResNet残差网络

【磐创AI导读】:本文主要带大家一起剖析ResNet网络,查漏补缺。想要学习更多的机器学习、深度学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

291
来自专栏机器之心

专访 | 监管机器翻译质量?且看阿里如何搭建翻译质量评估模型

阿里机器翻译团队在本次比赛中,参加了英语到德语和德语到英语两个语向的句子级别和词级别的七项质量评估任务,收获了六项世界冠军。其中,德语到英语的统计机器翻译评估任...

601
来自专栏计算机视觉战队

稀疏&集成的卷积神经网络学习

今天主要和大家说的是分类检测过程中,一些稀疏和集成学习的相关知识,首先和大家说下图像目标定位与检测的方法分类。 众所周知,当前是信息时代,信息的获得、加工、处理...

3045
来自专栏机器学习算法全栈工程师

你必须要知道CNN模型:ResNet

作者:叶 虎 编辑:张 欢 PART 01 ResNet简介 引言 深度残差网络(Deep residual network, ResNet)的提出是CNN...

5057
来自专栏数据派THU

无人驾驶机器学习算法大全(决策矩阵、聚类、回归……)

来源:机器人圈 作者:多啦A亮 本文长度为4600字,建议阅读6分钟 本文全面概述了无人驾驶现阶段使用的机器学习技术。 [导读]无人驾驶被认为是未来人工智能技术...

1957

扫描关注云+社区