自然预言处理及自定义情绪分析

大数据文摘翻译

原文作者:Scott Van Boeyen

翻译:岳辰 /校对:于丽君(转载请保留)

文章来源:http://smartdatacollective.com

就在不久之前,大家都赌定飞行汽车和拟人机器人在2014年之前就会出现。

现在可以确定的是,飞行汽车的幻想破灭了,机器人也没能达到人们预想的样子。但是人类却实现了可以理解语言的“人工智能技术”。

这有点吓人?听起来似乎是的。但在笔者看来更多的是酷酷的感觉。

当人工智能语言被用来理解人类语言时,我们称(这种技术)为“自然语言处理”(NLP)。大多数用来解析文本的NLP引擎都带有一项叫做“情绪分析”的功能。通过该技术,我们可以知道一段文本带有正面,负面或是中性的情绪。

好的NLP引擎会将每一个词或短语标注情绪。举例来说,“糟糕的”就是一个带有负面情绪的词,而“美味的”则是正面情绪词。“蓝色的椅子”则是一个中性词。

情绪分析同时也会告诉我们一整段文字的属性。举例来说,如果一条微博说:“服务很差劲,但食物却很美味。”那么它会被认为是中性的。这是因为一个正面情绪词和一个负面情绪词相互抵消了效果而变成了中性。

好的NLP引擎不仅对每个单词或词组赋予的情绪打分,同时会对整个文本的情绪打分。所以在上述例子里,我们就能知晓,整个微博是中性的,但是其中分别有着有价值的正面和负面信息。

情绪分析的一大问题就是它有时候会出错,但这只是我们必须要面对的一个局限而已。笔者的意思是,就一般人而言,在一半的情形下对文本的情绪判断都会产生分歧。即使是专业学生,也会有百分之二十的情况下会产生分歧。

“老兄,那个碉堡了!”(Oh man,that was nasty!)这句是正面情绪还是负面情绪呢?

当然,这“肯定”是负面情绪。“Nasty”(原义是糟糕,恶心)是一个负面的词,而这句里别的词都是中性词,所以最后的结果:负面情绪!撒花!

错!这句是正面情绪的句子!(Nasty在俚语中是“棒极了”的意思。)

说这句话的人使用的是美语俚语中nasty的含义,而这是一个正面的词。但是如果单单从这句话中,我们是无法判断的。如果作为人类的你也掉进了我们刚刚的这个小陷阱,我们又怎么能要求机器搞明白这个呢?这里的答案是,你可以去“教”机器哪些是正面情绪,哪些是负面情绪。

高质量的NLP引擎可以允许你自定义情绪分析中的设置。”Nasty”默认是负面情绪词。但如果你使用带有正面情绪的俚语中的“nasty”时,你可以登录引擎使用情绪的自定义功能,把这个单词给予一个正面情绪的分数。

更优秀的NLP引擎可以使整个的进程变得轻而易举。如果没有这样的自定义功能,这个机器有可能在工作中变得一无是处。所以当你选择情绪分析的引擎时,一定要确保它含有自定义的功能。

不然的话,你所面对的就是一个逐字句机械式翻译的机器而无法得到更精确的结果。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

警惕大数据中的“陷阱”

1643
来自专栏华章科技

关于Python的一切:2018年,你读这8本书就够了

导读:C++、Java大神Bruce Eckel前些天在中国之行中,毫不掩饰对Python的偏爱:“坦白来讲,我最喜欢的语言是Python。每当我有问题需要被解...

931
来自专栏CDA数据分析师

避免这7个数据错误,让你的数据分析更有效率!

? 编译 Harris 本文转自机房360,转载需授权 数据正在成为现代企业的一个更重要的工具,几乎可以作为一种货币,它可以从衡量营销活动的有效性到评估员...

3708
来自专栏大数据文摘

抛掉幻想,谈谈现实中的数据科学家

1513
来自专栏数据科学与人工智能

【机器学习】机器学习编程语言之争狼烟再起,Python称霸?

随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主题词。数据科学领域中所采用的机器学习编程语言大相径庭。究竟哪种语言最适合机器学习成为争论不...

1918
来自专栏新智元

【八年苦读】伯克利研究生解决量子计算验证问题

新智元报道 来源:Quantamagazine 作者:Erica Klarreich 编辑:三石、肖琴

1477
来自专栏大数据文摘

机器学习编程语言之争,Python夺魁

29017
来自专栏钱塘大数据

2017 AI成熟度曲线图

概要:AI以一种更实际的形态作为数字化商业的关键组成要素获得了新生。 来源:智能机器人资讯分享 分析 你需要知道的 AI以一种更实际的形态作为数字化商业的关键组...

3729
来自专栏机器学习算法与Python学习

为什么程序员一定要学深度学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 对于深度学习,我也是一个初学者,能力...

3394
来自专栏AI科技评论

八步拿下数据科学,攻克 “21世纪最性感的工作”

在数据科学(Data Science)领域,除了“什么是数据科学”这个问题以外,大家最感兴趣的问题就是“如何学习数据科学?”其实这个问题除了新手会问,有时候领域...

2747

扫码关注云+社区