对于 tractable tasks,机器学习很难胜过专家

我们 “语义计算” 群在讨论这个句子的句法结构:The asbestos fiber, crocidolite, is unusually resilient once it enters the lungs, with even brief exposures to it causing symptoms that show up decades later, researchers said.

我说,it looks fine in its entirety. "once-clause" has a main clause before it, so it is perfectly grammatical. The PP "with even brief exposures to it" is an adverbial of "causing ...": usually PP modifies a preceding verb, but here it modifies the following ING-verb, which is ok.

然后想到不妨测试了一下我们的 parser,果然,把 PP 连错了,说是 PP 修饰 enters,而不是 causing。除此而外,我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进,我可以让两种可能都保留。但是统计上看,也许不值得,因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词,修饰前者的概率远远大于修饰后者。

张老师问: 是否此句在你的训练集里?如是统计方法。否则太不容易了

我说,我这是语言学程序猿做的规则系统,不是统计方法。句子不在我的 dev corpus 里面。parsing 是一个 tractable task,下点功夫总是可以做出来,其水平可以达到接近人工(语言学家),超越普通人(非语言学家)。说的是自己实践的观察和体会。靠谱的 parsing,有经验的语言学程序猿可以搞定,无需指靠机器学习。为了说明这个观点,我测试了我的汉语 parser:

这个汉语句子的 parsing,只有一个错误,“语言学”与 “程序猿” 之间掉链子了(说明 parsing 还有改进余地,汉语parsing开发晚一些,难度也大一些,当前的状况,掉链子的事儿还偶有发生)。但整体来看基本也算靠谱了。所以,即便是比英语句法更难的汉语,也仍然属于 tractable 人工可以搞定的任务。

语言学家搞不定的是那些千头万绪的任务,譬如语音识别(speech recognition),譬如文章分类 (document classification),譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务,人脑不够用,见木不见林。但是对于 deep parsing 和 信息抽取,解剖的是一颗颗树,条分缕析,这是语言学家的拿手好戏,都是 tractable 的任务,当然可以搞定。(甭管多大的数据,一句句分析抽取完了存入库里,到retrieve的时候还是需要“挖掘”一番,那时候为了不一叶障目,自然是需要用到统计的)。

在条分缕析的 tractable 任务上(譬如,deep parsing),我的基本看法是:有NLP经验的语言学家立于不败之地。而机器学习,包括深度学习(deep learning,当前呼声最高的机器学习神器),也许在将来的某一天,可以逼近专家水平。值得期待。最多是逼近语言学家,但是要超越人工,我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码,这个观点本来应该是显然的,但是学界的多数人却天然地认为深度学习总是可以超越人工系统。

parser 的直接目标不是语义求解,而是提供一个靠谱的结构基础,这样后续的(语用层面的)语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用,就可以面对有限的 patterns,而不是无限的线性序列。从这个目标来看,我们的中文英文的 parsers 都已经达标了。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

中文情感分析 (Sentiment Analysis) 的难点在哪?

作者:容哲 假设分析的对象是iphone5s的手机评论。从京东、亚马逊或者中关村都可以找到这款手机的评论。大致都如图所示。 ? 情感分析(Sentimen...

4416
来自专栏AI科技大本营的专栏

Chatbot大牛推荐:AI、机器学习、深度学习必看9大入门视频

这年头,谈话间,不夹杂点“人工智能”,“机器学习”,“深度学习”这样的字眼,就跟九十年代追不上互联网的时髦一样——丢份! 可是呢,说白了,真正懂行的没几个,真的...

3217
来自专栏吉浦迅科技

用NVIDIA Jetson开发智能安全系统

JETSONAR智能安全系统旨在在有噪音的地方产生广泛的影响。而且我们身边到处都是噪音。

742
来自专栏斑斓

结束语与参考文献

四. 结束语 遗留系统的技术栈迁移可能是一个漫长艰苦的过程,它的难度甚至要高于新开发一个系统,这是因为我们常常会挣扎在新旧系统之间,并在不断的妥协、权衡中缓步前...

3487

用于入门的最佳机器学习资源

这是一个非常难写的文章,因为我希望它是真正有价值的。

24810
来自专栏ATYUN订阅号

英特尔开源用于自然语言处理的库,为会话智能体研究提供便利

英特尔人工智能实验室已经开源了一个用于自然语言处理的库,帮助研究人员和开发人员为聊天机器人和虚拟助手等会话智能体提供运行所必需的功能,例如名称实体识别,内涵提取...

694
来自专栏ATYUN订阅号

【业界】算法没有偏见,我们有!

对使用AI来改进组织的运作感到兴奋吗? 对计算机模型的见解和预测的承诺感到好奇吗?我想提醒大家有关偏见的问题,以及这些类型的项目如何出现,我将分享一些说明性的例...

2774
来自专栏人工智能快报

脸书采用无监督机器学习提供翻译服务

由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语(Urdu),Facebook(脸书)公司已经开始使用无监督的机器学习来翻译其平台上的内容。

674
来自专栏华章科技

想学数据分析不知道该读什么书、从哪本读,翻遍专业知识类网站最全的整理

适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。

762
来自专栏AI科技大本营的专栏

视频教程 | 7行Python,搭建一个可以识花的机器学习APP

程序员想转型AI却迟迟无法开始?也许你需要一种更加有趣的学习方式。 Siraj Raval是一位人工智能领域的编程高手,毕业于哥伦比亚大学,曾任职于 Twili...

3317

扫码关注云+社区