我在一所学生容易掉头发的大牛校,学了一周最前沿的语言学

如何优雅地创造一门人工语言?

《指环王》中的昆雅语

靠大数据支持的自然语言处理遇到不大的数据怎么办?

Gary Larson

语用学也可以用计算机研究吗?

Stanford CoCoLab

这些有趣的问题都可以在今年的北美逻辑、语言与信息学暑期学校(NASSLLI)得到解答。小编上周五刚刚结束在这里的学习,借今天的午餐带大家总结一下本次暑校的一些亮点。

NASSLLI暑校始于2001年,现在每两年举办一次。它致力于为参与课程的逻辑学、语言学、计算机科学、认知科学等领域的学生提供一次杰出的跨学科教育机会。

今年的暑校由卡内基·梅隆大学(Carnegie Mellon University,CMU)主办。

卡内基·梅隆大学位于美国宾夕法尼亚州匹兹堡市,它以其卓越的计算机科学项目而出名,著名校友包括李开复、茅以升、约翰·纳什、吴恩达等等。

卡内基·梅隆大学的哲学系领头组织了本次暑校。但同时,来自计算机科学、语言科技研究所、数学、心理学、统计学、机器学习、人机交互等等部门的同事都参与了活动的组织。这一点很好地彰显了这个暑期学校的跨学科特性,也因此让活动组织者不无自豪地表示——简直没有比CMU更适合主办NASSLLI的地方了。

卡内基梅隆大学校景

今年的暑期学校有五个序列的课程——逻辑学与知识论、逻辑学与计算、计算语言学、语义学和语用学,以及探索类课程。五个序列的课平行进行,学生可以自选课程去听,并在整个暑校期间随意换课,形式十分灵活。

NASSLLI的参加者以研究生为主,但也有一些本科生。大家的年级、经历、学科背景都不尽相同。

除了课程之外,周二至周四中午会有学生研究海报展示时间:

下午第三、四节课之间还有茶歇时间:

课程全部结束之后还有可口的自助晚宴:

这些都是和各个不同专业背景的学长姐、学弟妹交流的好机会。

CMU迪特里希人文与社科学院所在的贝克堂是本次暑校所用的教学楼

本次NASSLLI一共开设了29门课。由于篇幅所限,小编下面只能介绍三门自己觉得比较有趣的课。不过,几乎所有课程的课件都会上传到网上,对任何一门课感兴趣的读者都可以在nasslli2018.com上下载课件来看(但请国内的同学注意大部分课件是在谷歌云端硬盘上的)。

小编的胸牌

低资源自然语言处理技巧

Low resource techniques in NLP

自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能对人类语言进行处理的研究方向 。自然语言处理的主要应用包括机器翻译、语音识别、对话机器人等等。

语音助手是NLP的主要应用之一

虽然名为自然语言处理,但是随着机器学习的发展,语言学知识在其中起到的作用越来越小。

自然语言处理目前主要是以计算机科学为背景的人在研究,使用的方法也以统计学和概率学的方法为主。主流的计算语言学和自然语言处理领域的会议更是被计算机科学家所占据。

神经网络的发展更是令自然语言处理如虎添翼。使用神经网络开发的谷歌翻译的准确度达到了令人啧啧称奇的水平。

来自36氪

基于统计和概率,尤其是基于神经网络的自然语言处理需要海量的语料数据作为支持。那么,在处理语料不够的小语种时,或在处理大语言中缺乏语料的特定领域时,自然语言处理会怎么样呢?

会凉。

这时,语言学知识就可以回来救场了。在自然语言处理中,数据越少,语言学结构起到的作用就越大。

低资源自然语言处理技巧课由CMU语言科技研究所(Language Technology Institute)的教授David Mortesen主讲。Mortesen教授本人来自传统的语言学背景,所以他对语言学十分友好,也很重视语言学知识在自然语言处理中的应用。

CMU语言科技研究所

对于低资源的语言或领域,我们既可以通过语言学知识的协助,也可以运用一些特别的模型训练技巧,来改善NLP的表现。我着重介绍一下大家可能比较关心的语言学在自然语言处理中可能的应用。

在形态学方面,对于像土耳其语这类的黏着语来说,每个词干后面都可以添上许多后缀,词干本身很少单独出现。有时同样的表层形式可能有不同的底层解读。

比如土耳其语okuma可以解作oku-ma,是“读书”的动名词形式(-ma),也可以解作ok-um-a,意思是向着(-a)我的(-um)箭(ok)。

土耳其语是典型的黏着语

更何况土耳其语还有元音和谐律,同样的后缀为了配合元音和谐律会使用不同的元音,这都为土耳其语的信息检索带来了难度。如果是单纯地让机器自己弄清楚这些规则的话,怕是不比让它学下围棋简单多少。

语言学知识在专有名词识别(Named Entity Recongnition,NER)中格外实用。对于语义格(case)变化丰富的语言,如果我们教给计算机如何辨识方位格(locative case),计算机就能更轻松地识别出哪些词表示地点。

比如拉丁语中Athenae是雅典的意思,方位格形式Athenis表示“在雅典”

latintutorial/YouTube

语音学知识在专有名词识别中也可以起到作用。例如维吾尔语是语料资源较少的语言,但是它的亲属语言土耳其语的语料则丰富许多。

我们现在要识别维吾尔语 شىنجاڭ 是什么意思。

شىنجاڭ 转换成国际音标是 /ʃind͡ʒaŋ/。而土耳其语里有单词Şincan,意思是“新疆”,国际音标是/ʃind͡ʒan/。

对比两个音标我们发现只有末尾的/ŋ/和/n/不一样。比较两个音的特征(feature),我们发现它们的区别只在于/ŋ/是[+舌背音(dorsal)],/n/是[+舌冠音(coronal)],两个音几乎一样。

于是我们就可以把土耳其语Şincan和维吾尔语 شىنجاڭ 对应起来,并推测出 شىنجاڭ 是“新疆”的意思。

专名识别(NER)是语言学知识可以有许多贡献的一项NLP任务

我们甚至可以用语料较多的亲属语言训练语言模型,再将它直接应用于语料少的低资源语言上,也可以得到比只用低资源语言来进行训练要更好的效果。这听起来有些不可思议,好比只通过姐姐来了解妹妹的喜好。

但这个方法被证明是切实可行的。

举一个特别的例子,即使我们把用语料资源较少的乌兹别克语训练出来的模型直接套用在语料资源较多的土耳其语上,也可以达到26.92%的准确率。

这就是所谓的迁移学习(Transfer Learning)

那么,未来的NLP究竟是会更向语言学靠拢,还是说不考虑语言结构的NLP还能继续流行一段时间呢?我在晚宴上向Mortesen教授请教了这一问题。

他认为,当前的NLP开发对语言学知识的使用是周期性的。如果单纯的机器学习方法遇到了瓶颈,研究者就可能参考一些语言学知识来协助开发;但当这些瓶颈被突破时,语言学知识又会被放在一边。

但是教授本人还是十分肯定语言学知识在NLP中的价值的。他表示,所谓“NLP不用语言学知识”通常是学生的观点。他经常提出的批评就是语言科技研究所的新生多来自纯计算机科学背景,没有接受过语言学的训练。

我大三实验语音学课上观看李开复1993年介绍自动语音识别的视频时,每当李开复说“音位就是英语里的音”,教授和学生就会开始咯咯咯地傻乐

(截图来自 University Video Communications)

不过,计算机科学的知识对于NLP的开发来说还是最重要的,应该是要两者兼顾,不能偏废。

看完了计算语言学领域里最常见的自然语言处理,我们接着来了解一下计算方法是如何为一个不被看好的语言学分支注入活力的。

计算语用学

Computational pragmatics

“蓝的。”

problang.org

我们有蓝方块蓝圆圈绿方块三个东西。一个人可以用绿圆圈方块之一的词描述这些东西。那么,当一个人说“蓝的”的时候,他指的可能是三个东西里的哪一件呢?

首先,既然他说的是“蓝的”,绿方块就自然没有可能了。那语者指的是蓝方块还是蓝圆圈呢?

蓝方块的可能性大一些。如果语者指的是蓝圆圈,由于图中只有一个圆圈,他大可以说“圆圈”而不是“蓝的”,所以语者指的应该是蓝方块。

这个分析看上去挺合理,可是有没有办法证明我们是对的呢?Rational Speech Act(RSA)框架便是这么一个实用的工具。下面我简单介绍一下如何用RSA回答上面的问题。我会提到一些概率论的概念,晕数学的读者可以闭上眼睛,或大胆地透过指缝阅读。

RSA框架有三个层次:一个实用语者S1会从U =中选出一个最好的信号词u来表示S =中的一个物品s

一个实字听者L0会接受语者所选择的信号词u。他相信语者不会明明看着绿球却说它是蓝的,并且他会预判每一个物体在这一情形下出现的概率,也就是贝叶斯中的所谓先验概率(prior probability)。

实用听者L1则会用贝叶斯定理来推理语者的想法,并据此来解释信号词u到底指的是哪一件物品。

1. 实字听者(Literal Listener)L0

实字听者L0首先考虑信号词的字面意思。他会计算在给出u这个词的条件下,出现物品s的概率。他算到,既然一共三件物品,说“蓝色”就应该排除了绿方块,剩下两件物品,那么“蓝”对应”蓝方块”的概率是50%,对应“蓝圆圈”的概率也是50%。(多新鲜呢)

2. 实用语者(Pragmatic Speaker)S1

说话是一种动作,实用语者S1做动作时会考虑动作的效用(utility),并根据他预计的效用来决定他会做哪一种动作。

在RSA的模型里,假设三种动作的效用分别是a1 = -1,a2 = 6,a3 = 8。当实用语者的最优性为1时,他最终选择三种动作的概率分别是0%、12%、88%。

如果我们进一步增加最优性,比如到2,实用语者最终选择动作a3的概率会进一步提升到98%。实用语者更可能会做效用更高的动作。

简单来说,实用语者选择的词得准确,让听者能够听懂,在理解上不要出现偏差;但是他还要扣除说话的成本,尽量能少说就少说。

3. 实用听者(Pragmatic Listener)L1

对于实用听者L1来说,他在理解实用语者S1的话时,会考虑语者为什么会选择这么说。

因此实用听者听到信号词u并对应到物品s的概率PL1(s|u),是和实用语者S1看到物品s并选择说出信号词u的概率PS1(u|s),再乘上物品s本身的先验概率P(s),成正比的。也就是PL1(s|u) ∝ PS1(u|s) ⋅ P(s)。

把这三个层次的因素结合到一起,我们计算出在RSA模型中,当语者优选性为1时,“蓝色”指蓝方块的概率是60%,指蓝圆圈的概率是40%。如果进一步提高优选性到2,指蓝方块的概率会升到81%,指蓝圆圈的概率则降到19%。

RSA框架可以让我们得出和用文字推理一样的结果,且有了概率方法的加持让我们的推论显得严谨许多。除了上面的例子之外,RSA框架还可以用来分析下面的问题:

过于翔实(Over-informativeness):

在第一幅图中,如果你想要箭头所指的水果,你可能会说“给我那个苹果”。但在第二幅图中,如果你想要箭头所指的水果,你可能会说“给我那个蓝色的苹果”。可是第二幅图并没有其它苹果,那为什么语者往往会加上“蓝色”这个冗余的信息呢?

梯级隐含(Scalar Implicature):

problang.org

假设我们有三个苹果。当语者说“有一些苹果是红的”的时候,听者会认为有一个、两个,还是三个苹果是红的?如果听者知道了语者只能观察到两个苹果的话,他又会认为有几个苹果可能是红的呢?

本节课的老师是斯坦福大学的Judith Degen教授。Degen教授同时主管斯坦福互动语言处理实验室(interActive Language Processing lab Stanford)。

斯坦福互动语言处理实验室

她在课程简介中写道,语用学曾被认为是语言学届的垃圾桶。凡是语义学解释不了的复杂现象就会被丢进模模糊糊的语用学。不过近来认知科学的发展,加上数学建模的应用和大量的实验数据,让语用学进入了新的成熟期。

语用学也可以很科学,它不是语言学届的垃圾桶

对RSA感兴趣的读者可以上problang.org浏览本节课使用的在线课本。课本中有一些用WebPPL语言所编写的代码,不过读者并不需要掌握它,只需要按照指示,调整一下代码中的参数,来探索不同的值对于结果的影响。

连着介绍了两节计算语言学课程,对计算机不是那么感兴趣的读者可能已经要逃跑了。别着急,我们接下来看一门好玩的课。

人工语言游乐场

Conlang playground

不知道各位有没有逛过百度贴吧的“人造语言吧”。

在吧里有时能见到令人眼前一亮的创意作品,也时常遇见作业太少的小学生,像误入了语言学届的民科聚会。

人工语言(Constructed languages, conlang)是为了艺术或辅助沟通等目的所人为创造出来的语言。比较知名的人工语言有国际辅助语世界语(Esperanto),《指环王》里的精灵语,《权力的游戏》里的瓦雷利亚语,《星际迷航》里的克林贡语等等。

《权力的游戏》中的高等瓦雷利亚语

这门课由CMU语言科技研究所的 Lori Levin 教授主讲。Levin 教授同样来自语言学背景,她还是北美计算语言学奥林匹克竞赛(NACLO)组委会的委员。学生会在这门课结束时完成创作一门人工语言的原型。

人工语言不是瞎造的,它应该能够承载人类所想表达的意思,且应符合自然语言的结构。创造人工语言也并非毫无意义,它是帮助我们认识人类语言的一种手段。

课程带领学生考虑自己的语言应该拥有怎么样的语序(我吃饭 还是 我饭吃)、语义格(主格宾格,哪些格需要表示出来,哪些格可以不表示出来)、性数一致、系动词、比较级、类型分类(黏着语、屈折语)、名词、代词、反身代词、冠词等等。课程会使用很多真实的自然语言的例子来帮助学生构思自己的语言。

课程最后还介绍了一部有趣的短片。时任加州大学伯克利分校教授 Wallace Chafe 在1975年制作了一段没有对白的短片《梨的故事》。

这段影片会被向操不同语言的人士播放。观众看完后会被要求描述短片里发生了什么。pearstories.org上有对七种主要汉语方言进行的测试,感兴趣的读者可以看一下。

短片可以用来测试可编码性(codability),也就是一种语言有没有足够的能力被用来表达人所想表达的事物。如果一个语言的可编码性高,不同的观众会用类似的句法来描述场景;而如果一个语言的可编码性低,不同的观众给出的描述则形形色色。

另外课程推荐了人工语言发明者 Mark Rosenfelder 所写的《语言创造套件》(Language Construction Kit)。这本书可以在zompist.com/kit.html免费阅读。想创作人工语言的读者不妨参考一下。

zompist.com

除了上面介绍的三节课,NASSLLI还有不少有趣的课程,例如自然语言的逻辑,爱丁堡大学NLP的图形形式主义与意义表示等等;也有许多实用的课程,例如用Python和NLTK做语料库语言学,用R语言做语言学研究等等。各位都可以到NASSLLI网站浏览这些课程。

用NLTK画的中文句法树

暑校贵吗?值吗?未来有哪些暑校机会?

今年NASSLLI的注册费用只有200美元,如果是匹兹堡本地的学生则只需50美元,可谓十分实惠了。暑校组织者表示这一费用其实并不够支付实际的成本,价格低廉的原因是因为有赞助。

参加暑校主要的开支其实在于住宿。以本次NASSLLI为例,校内宿舍单人间65美元一晚,双人间50美元一晚,校外合作的酒店则是149美元一晚,大家可以参考一下。

NASSLLI也设有奖学金,在学生自己的系不资助的情况下可以申请。NASSLLI设有学生海报展示时间,所以如果能投一个海报再请系里全额资助自己自然是最理想的了。

参加只有一周的暑校有没有收获呢?其实在这么快节奏的环境下想要把每门课都听明白是很有难度的,所以来参加暑校更大的意义在于探索一些自己感兴趣却不一定有机会在校学习的课程。对这些知识点有一定的了解能方便自己在以后的学习中进一步探索这些课题。

更重要的是,提供这些课程的教授和学校都是该领域的先驱。有机会听到他们介绍自己专精的研究是十分难能可贵的。另外,能在暑校期间的茶歇和晚宴等各种场合向学长姐和大牛教授们探讨自己在学科内的疑惑和心得,也绝对是一个不可多得的机会。

至于未来的暑校项目,下一届NASSLLI会在2020年举办,主办学校应该是布兰迪斯大学。布兰迪斯大学计算语言学项目同时也是本届NASSLLI的赞助方之一。

2019年也有许多值得考虑的机会。历史更为悠久且更为成熟的欧洲逻辑、语言与信息学暑校(ESSLLI)每年举办一次,每次两个星期,学生有时间探索更多课程。2019年的ESSLLI将在拉脱维亚大学举行。2018年索非亚大学的ESSLLI虽然尚未截止报名,但是现在才报名的话住宿会比较难找。

拉脱维亚大学

lu.lv

美国语言学会(LSA)两年一度暑期语言学学校(Summer Linguistic Institute)将于2019年6月到7月在加州大学戴维斯分校举行,主题是数字时代的语言学。这是一个四周的项目,很知名且很受欢迎,而且有奖学金可以申请,大家可以多多留意一下。

计算语言学方面,约翰霍普金斯大学语言及语音处理中心每年都会有一个六周的高强度暑期研究工作坊。这个工作坊由2014年开始更名为 Frederick Jelinik 纪念工作坊。Frederick Jelinik是自然语言处理的先驱。没错,就是通过开除语言学家来提升语音识别系统表现的那位。

工作坊包括一个两周的人类语言科技暑校,会有很多技术开发的训练。这个项目是对本科生友好的,有提供本科生奖学金和本科生研究职位的申请。

各位读者还可以多多利用Linguist List来搜索未来的暑校机会。

以上就是我对今年NASSLLI的一个简单回顾了。希望大家看完可以对语言学暑校产生一定兴趣,以后有机会的话可以参与到这些活动中来。

参考资料

G. Scontras, M. H. Tessler, and M. Franke (2018). Probabilistic language understanding: An introduction to the Rational Speech Act framework. Retrieved 7 July 2018 from https://www.problang.org.

NASSLLI 2018 @ CMU - June 23-29 - North American Summer School on Logic, Language, and Information (2018). Retrieved 7 July 2018 from https://www.cmu.edu/nasslli2018/

赞赏是语言学午餐作者唯一的稿费来源

激励作者,享受更多语言学好文

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180708B0KSVY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券