前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过实例说明机器学习如何处理歧义

通过实例说明机器学习如何处理歧义

作者头像
AiTechYun
发布2018-07-27 14:28:12
6020
发布2018-07-27 14:28:12
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

AiTechYun

编辑:chux

在机器学习和人工智能的世界中,遇到的每个独特的现实世界问题都有其自身的影响和危险。尽管采用了所有有效的技术,但有时很难取代诸如“不确定性”的简单因素。例如,在图像分类中,如果未详细考虑数据中的图像特征,则即使学习算法相应地对它们进行分类,系统中的输出也将是模糊的。

当谈到ML中的模糊性时,这只是冰山一角。尽管ML系统经过精心设计,但有时会遇到新的,不确定的问题。不确定性可能存在于ML的任何部分,无论是在目标中还是在它收到的数据中。这些因素导致开放性的解释。在本文中,我们将研究ML以最合适的方式处理歧义的一些情况。

案例1:自然语言处理

对ML模糊性的最早研究之一是准确地开发自然语言任务,其中算法被作用于特征空间中的线性分离器。这是为了解决算法处理的语言中存在的语义错误和语法错误。在美国宾夕法尼亚大学教授Dan Roth的一项研究中,他提出了一种学习方法,其中线性分离器用于解决语言歧义。

该研究侧重于语言方面,如机器翻译的单词选择,词性标注和词义消歧。该研究的研究论文将语言学习过程视为消歧问题,并应用线性分离技术。消歧问题的正式定义是用不同的单词谓词,它们的分类和学习问题的特征来定义的。此外,还强调了各种消歧方法,以将它们用作线性分离器。

与其他方法,如Naive-Bayes和基于转换的学习(TBL)相比,该研究中提到的线性分离方法确实表现良好,从而为自然语言中的模糊性提供了更好的选择。

案例2:DNA测序

基因组学的进步非常迅速,已经为测序过程产生了大量可能的数据。测序是在DNA中排列核苷酸以确定遗传信息的过程。虽然有些机器能够在更快的时间内分析测序。德国马克斯普朗克进化人类学研究所开发了一种名为Ibis(改进的基础识别系统)的新机器,与Illumina合作,Illumina是一种使用荧光测序DNA碱基的分析仪(该过程称为碱基调用)。

该系统利用ML和统计方法,如聚类和支持向量机(SVM)。它主要通过学习数百万DNA分子中碱基的强度(强度)来改善碱基调用过程。强度在ML过程中标记。模糊性存在于基础的强度,如果错误地解释了整个测序过程可能无效,或者在整个过程中没有正确捕获它们。Ibis通过确保完美捕获强度水平来解决这个问题。因此,它使用多类SVM来实现。

案例3:图像分类识别单词,即视觉单词

ML中最具挑战性的问题之一是使用图像分类的语言描述(例如颜色或特征),这导致了许多种解释。表达视觉描绘的单词通常不考虑ML中的技术,例如图像分类,因为它应该同时考虑图像和文本特征。它需要大量数据,其中分类可能进一步复杂化。尽管已经有研究将文本和图像都考虑在一起用于训练“视觉单词”,但是这些依赖于每个视觉描绘的词的最佳可能定义。

一个研究已经缓解了这一问题,阿姆斯特丹大学的研究人员设计了一个“codebook”,这包含了通过ML映射到图像特征通用的词汇表。研究人员在五个数据集上测试这些数据,发现图像单词匹配明显更好。

上述少数案例仅涵盖了ML的文本方面。像这样,ML包含许多不同的数据,如图像,视频,代码等。如果加入更多高质量数据,歧义将更少。此外,ML理想化的目标应该是精确的,并且与图中ML项目的要求一致。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 案例1:自然语言处理
  • 案例2:DNA测序
  • 案例3:图像分类识别单词,即视觉单词
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档