对于 tractable tasks,机器学习很难胜过专家

我们 “语义计算” 群在讨论这个句子的句法结构:The asbestos fiber, crocidolite, is unusually resilient once it enters the lungs, with even brief exposures to it causing symptoms that show up decades later, researchers said.

我说,it looks fine in its entirety. "once-clause" has a main clause before it, so it is perfectly grammatical. The PP "with even brief exposures to it" is an adverbial of "causing ...": usually PP modifies a preceding verb, but here it modifies the following ING-verb, which is ok.

然后想到不妨测试了一下我们的 parser,果然,把 PP 连错了,说是 PP 修饰 enters,而不是 causing。除此而外,我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进,我可以让两种可能都保留。但是统计上看,也许不值得,因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词,修饰前者的概率远远大于修饰后者。

张老师问: 是否此句在你的训练集里?如是统计方法。否则太不容易了

我说,我这是语言学程序猿做的规则系统,不是统计方法。句子不在我的 dev corpus 里面。parsing 是一个 tractable task,下点功夫总是可以做出来,其水平可以达到接近人工(语言学家),超越普通人(非语言学家)。说的是自己实践的观察和体会。靠谱的 parsing,有经验的语言学程序猿可以搞定,无需指靠机器学习。为了说明这个观点,我测试了我的汉语 parser:

这个汉语句子的 parsing,只有一个错误,“语言学”与 “程序猿” 之间掉链子了(说明 parsing 还有改进余地,汉语parsing开发晚一些,难度也大一些,当前的状况,掉链子的事儿还偶有发生)。但整体来看基本也算靠谱了。所以,即便是比英语句法更难的汉语,也仍然属于 tractable 人工可以搞定的任务。

语言学家搞不定的是那些千头万绪的任务,譬如语音识别(speech recognition),譬如文章分类 (document classification),譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务,人脑不够用,见木不见林。但是对于 deep parsing 和 信息抽取,解剖的是一颗颗树,条分缕析,这是语言学家的拿手好戏,都是 tractable 的任务,当然可以搞定。(甭管多大的数据,一句句分析抽取完了存入库里,到retrieve的时候还是需要“挖掘”一番,那时候为了不一叶障目,自然是需要用到统计的)。

在条分缕析的 tractable 任务上(譬如,deep parsing),我的基本看法是:有NLP经验的语言学家立于不败之地。而机器学习,包括深度学习(deep learning,当前呼声最高的机器学习神器),也许在将来的某一天,可以逼近专家水平。值得期待。最多是逼近语言学家,但是要超越人工,我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码,这个观点本来应该是显然的,但是学界的多数人却天然地认为深度学习总是可以超越人工系统。

parser 的直接目标不是语义求解,而是提供一个靠谱的结构基础,这样后续的(语用层面的)语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用,就可以面对有限的 patterns,而不是无限的线性序列。从这个目标来看,我们的中文英文的 parsers 都已经达标了。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

UCSB研究发现计算机与人类视觉差异,用人眼搜索策略提升计算机视觉

【新智元导读】 加州大学圣巴巴拉分校的研究人员发现,当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象,试图更好地理...

3337
来自专栏机器之心

学界 | CMU通过机器学习「读心术」解码大脑复杂思想

选自CMU 机器之心编译 参与:黄小天、Smith 近日,卡内基梅隆大学官网上发表了一篇题为《Beyond Bananas: CMU Scientists Ha...

3459
来自专栏机器之心

让人工智能发明自己的语言:OpenAI语言理解研究新方向

选自OpenAI 作者:Igor Mordatch 等 机器之心编译 参与:李泽南、蒋思源、微胖、黄小天 在本文中,OpenAI 展示了自己的新研究,让人工智能...

3137
来自专栏AI科技评论

深度 | 华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章

AI 科技评论按:深度学习给自然语言处理带来了革命性的进步,基于深度学习的机器翻译等任务的性能有了大幅度的提升。面向未来,自然语言处理技术将如何发展和演进?在哪...

2818
来自专栏机器之心

资源 | 谷歌发布人类动作识别数据集AVA,精确标注多人动作

2897
来自专栏云市场·精选汇

AI学院 | 人工智能基本知识概览

人工智能(Artificial Intelligence):缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

906
来自专栏华章科技

什么是数据挖掘

好吧,这样的定义方式比较抽象,但这也是业界认可度最高的一种解释了。对于如何开发一个大数据环境下完整的数据挖掘项目,业界至今仍没有统一的规范。说白...

672
来自专栏AI科技评论

小白不知从何入手认知机器学习?Shakir Mohamed 授你锦囊妙计

导读:如何让机器学习从环境中自主学习和思考是科学家们正努力探索的目标。本文的一些想法说不定可以为研究带来一丝灵感。 注:本文译自 The Spectator,作...

2746
来自专栏新智元

【谷歌草绘RNN瞄准超级AI】源自壁画的飞跃,AI 学会归纳抽象概念

【新智元导读】人类自从开始在洞穴的岩壁上画出简单的草图,认知能力就产生了飞跃——归纳抽象的能力大大提高。现在,谷歌的 Magenta 项目也在致力于这一研究。名...

3029
来自专栏AI科技评论

16个新手必看的机器学习视频教程

我们很多人都没有注意到,其实 YouTube 上面有大量免费的机器学习的指导课程。你无须再等待 MOOC 课程的更新了,可以在 YouTube 上面找到你想要的...

4917

扫描关注云+社区