通过实例说明机器学习如何处理歧义

AiTechYun

编辑:chux

在机器学习和人工智能的世界中,遇到的每个独特的现实世界问题都有其自身的影响和危险。尽管采用了所有有效的技术,但有时很难取代诸如“不确定性”的简单因素。例如,在图像分类中,如果未详细考虑数据中的图像特征,则即使学习算法相应地对它们进行分类,系统中的输出也将是模糊的。

当谈到ML中的模糊性时,这只是冰山一角。尽管ML系统经过精心设计,但有时会遇到新的,不确定的问题。不确定性可能存在于ML的任何部分,无论是在目标中还是在它收到的数据中。这些因素导致开放性的解释。在本文中,我们将研究ML以最合适的方式处理歧义的一些情况。

案例1:自然语言处理

对ML模糊性的最早研究之一是准确地开发自然语言任务,其中算法被作用于特征空间中的线性分离器。这是为了解决算法处理的语言中存在的语义错误和语法错误。在美国宾夕法尼亚大学教授Dan Roth的一项研究中,他提出了一种学习方法,其中线性分离器用于解决语言歧义。

该研究侧重于语言方面,如机器翻译的单词选择,词性标注和词义消歧。该研究的研究论文将语言学习过程视为消歧问题,并应用线性分离技术。消歧问题的正式定义是用不同的单词谓词,它们的分类和学习问题的特征来定义的。此外,还强调了各种消歧方法,以将它们用作线性分离器。

与其他方法,如Naive-Bayes和基于转换的学习(TBL)相比,该研究中提到的线性分离方法确实表现良好,从而为自然语言中的模糊性提供了更好的选择。

案例2:DNA测序

基因组学的进步非常迅速,已经为测序过程产生了大量可能的数据。测序是在DNA中排列核苷酸以确定遗传信息的过程。虽然有些机器能够在更快的时间内分析测序。德国马克斯普朗克进化人类学研究所开发了一种名为Ibis(改进的基础识别系统)的新机器,与Illumina合作,Illumina是一种使用荧光测序DNA碱基的分析仪(该过程称为碱基调用)。

该系统利用ML和统计方法,如聚类和支持向量机(SVM)。它主要通过学习数百万DNA分子中碱基的强度(强度)来改善碱基调用过程。强度在ML过程中标记。模糊性存在于基础的强度,如果错误地解释了整个测序过程可能无效,或者在整个过程中没有正确捕获它们。Ibis通过确保完美捕获强度水平来解决这个问题。因此,它使用多类SVM来实现。

案例3:图像分类识别单词,即视觉单词

ML中最具挑战性的问题之一是使用图像分类的语言描述(例如颜色或特征),这导致了许多种解释。表达视觉描绘的单词通常不考虑ML中的技术,例如图像分类,因为它应该同时考虑图像和文本特征。它需要大量数据,其中分类可能进一步复杂化。尽管已经有研究将文本和图像都考虑在一起用于训练“视觉单词”,但是这些依赖于每个视觉描绘的词的最佳可能定义。

一个研究已经缓解了这一问题,阿姆斯特丹大学的研究人员设计了一个“codebook”,这包含了通过ML映射到图像特征通用的词汇表。研究人员在五个数据集上测试这些数据,发现图像单词匹配明显更好。

上述少数案例仅涵盖了ML的文本方面。像这样,ML包含许多不同的数据,如图像,视频,代码等。如果加入更多高质量数据,歧义将更少。此外,ML理想化的目标应该是精确的,并且与图中ML项目的要求一致。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-07-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏浮生的专栏

机器学习为更好的火灾现场安全

当勇敢的消防员身处险境试图抢救其他人和他们的财产的时候,他们的生命同样受到了威胁。在这篇文章中,我想分享我在AAIA第15届数据挖掘竞赛中的经验和获奖策略:给火...

2444
来自专栏AI科技评论

如何玩转谷歌TensorFlow? | 牛人讲堂

AI并不是一门简单的学科,AI算法的开发和调试并没有一个统一的、集成了大量API方便调用的平台和语言,目前的人工智能开发平台仍然处于一种半蛮荒的状态。许多功能需...

3536
来自专栏机器之心

学界 | 深度神经网络比拼人类视觉:信号弱时的物体识别差异

选自arXiv 机器之心编译 参与:Smith 近日,来自德国 Tubingen大学和Potsdam大学的研究人员们共同发布了一项研究成果——深度神经网络和人类...

2875
来自专栏深度学习那些事儿

一篇文章解决机器学习,深度学习入门疑惑

研究生有不少日子,和之前的几个学长以及几个学弟偶尔也聊聊天。大部分聊的话题无关乎这几年大火的机器学习深度学习神经网络,而这篇文章的目的,则是从学生的角度(不管是...

6727
来自专栏机器之心

学界 | 大脑信号和翻译?利用脑信号实现英语、葡语和普通话三语互解

2899
来自专栏工科狗和生物喵

【毕设进行时-工业大数据,数据挖掘】第一天收获

【个人看法】 支持向量机的核心与决策树类似。但是还是有不同之处,现在多学习下支持向量机,后面用自己的算法也行。或者给出多个版本的话,可以作为几个方案去解释!

1392
来自专栏新智元

CVPR 2018:用GAN预测20年后你长什么样

2643
来自专栏机器学习算法与Python学习

数据科学家必用的25个深度学习的开放数据集!

原文:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-le...

56614
来自专栏机器之心

同步SGD等现有分布式训练方式将过时,Yoshua Bengio谈迈向硬件友好的深度学习

2018 年 AlphaGo Zero 所需的计算量是 2013 年 AlexNet 的 30 万倍。当前数据集空前巨大,模型准确率也很高,在此背景下,深度学习...

1552
来自专栏新智元

9月机器学习文章Top10:星际2、Dota2皆入选,ML教程居榜首

【新智元导读】Mybridge AI(www.mybridge.co)基于文章的内容质量和热议程度对 9 月份和机器学习相关的论文进行了排名,从近 1400 篇...

3778

扫码关注云+社区

领取腾讯云代金券