首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

哥伦比亚大学谈语言学奥赛:通过趣味问题带您入计算语言学之门

请看例题:

给出如下线索,请问能否将3、5、7、10表达为瓦奥语?这是厄瓜多尔的土著语言,有大约1650名使用者。

(A)mẽña mẽña mẽña mẽña+mẽña go mẽña=ãẽmãẽmpoke go arokex 2

(B)aroke2+mẽña2=ãẽmãẽmpoke

(C)ãẽmãẽmpoke go aroke2=mẽña go mẽñaxãẽmãẽmpoke mẽña go mẽña

(D)mẽñaxãẽmãẽmpoke=tipãẽmpoke

在评论中贴出自己解答的人可以看到正确答案。

上列问题是北美计算语言学奥赛(NACLO)中的典型题目,这项一年一度的赛事旨在挑选出具有语言学天赋的中学生,并带领他们进入计算语言学的领域。NACLO问题既取材自传统语言学——覆盖句法、语义、词法与语音学,又取材自计算语言学——其应用领域包括机器翻译、语音识别、信息检索、文档摘要与对话系统。

与大多数数理化竞赛不同的是,NACLO问题叙述本身就给出了充分的预备知识,仅凭逻辑与算法思维就可以求解。不需要预先具备语言学的训练,只需要具备彻底想通一个有趣味有挑战性的问题的逻辑能力。要点不在于测试先前学过的概念或原理——高中很少开设语言学课程——而是将语言学和计算科学中的概念以逻辑趣题的形式表现出来,解题过程中所用的分析、推理、论证及其他解题技巧与语言学家研究语言、计算机科学家处理问题供机器求解时所用的那些是一样的。

“我参加过的大部分物理与数学竞赛大抵不过是一些标准问题的反刍”,五次竞技NACLO的Maxim Sigalov (哥伦比亚学院2017级博士生)说道,“那些比赛中其实没有多少创造力或者深度思考。而在NACLO中每道题都有新东西。参赛者不是在完成标准程序,每次都必须思索钻研问题的特殊性,这才有意思。”

竞赛题与计算语言学之间的联系可能不是,也不必是一眼就能看出的。Sigalov坦承,他并没有马上将NACLO与某个专业领域联系起来,也没有意识到研究与运用语言学可以成为一门职业。“老实讲,我在这个方面花了好几年才理解到,这是人们一直在实际研究的领域。我原来不知道。”他参加竞赛就是因为竞赛有趣。

语言无处不在

Sigalov记忆犹新的一道问题是《Sk8 Parsr》 (Littell, 2009)。这道题问了一个关于滑板电子游戏的问题,按下一些按钮可以使头像做某些规定的滑板动作。要求解题者将接下来的动作序列“解析”成符号,有些符号代表单个动作,有些符号代表组合动作。诀窍在于正确地理解一个动作何时最好用专门表示该动作的符号,何时又是一个组合动作的一部分,最好与其他动作作为一个整体看待,用一个符号表示整个动作序列。动作可以相当复杂,因而求解是个挑战。

乍一看电子游戏不像能归入语言学或语言范畴的主题。但这正说明了语言可以无处不在,哪怕是在意想不到的场合。直到过了几年在哥大修读了一门自然语言处理(NLP)的课程以后,Sigalov才明白,原来 “Sk8 Parsr” 是一个简单的移入规约语法分析器,其中“单词”就是按钮,“句子”就是按钮组合。在解答“Sk8 Parsr” 的时候NACLO参赛者就是在做语法分析,即辨认句子中每个词语的角色,这是语言学中基础性的第一步。

NACLO 充满了看似与语言或者计算语言学无关的趣题与概念。卡塔兰数出现在试题《One, Two, Tree》 (Smith, Gimbel, and Eisner, 2012)中。本题展示了“science fiction writer”这类复合名词的潜在歧义,考生其实是通过添加二元括号来消解歧义(复合词层次分析的种类数就是卡塔兰数)。许多其他赛题可用组合学技术解决,尽管考生可能都还没听说过这门数学分支。莱文斯坦距离,在信息论与计算机科学中老早就用来度量序列之间的距离。高中生可能不知道这个概念,却依然可以在试题《Nok-nok!》 (Fink, 2009) 中运用这个一般概念来描述一塌糊涂的拼写者的假想打字教练。(所有NACLO往届试题都在NACLO网站上。)

NACLO的全部意义在于,在考生高中毕业之前就向他们展示语言富有趣味、充满挑战的方方面面,从而激励他们在大学深造计算语言学。在Sigalov的案例中,NACLO成功地达成了这一目标。如今他念大三,是冉冉升起的明日之星,同时修读语言学、数学、计算机科学三个专业——NACLO参赛者通常兴趣广泛,多才多艺——今年夏天他将在爱丁堡大学的Mirella Lapata指导下做NLP研究。

有些学生已经对语言学与自然语言处理产生兴趣,哪怕对于这些学生,NACLO也可以确证并细化他们的专业选择,指导他们进入拥有这个方向强大院系的高校。这也是NACLO参赛者Alex Liu选择哥大的理由。Liu直到高中毕业班的时候才了解到NACLO,那时他已经对NLP很感兴趣,开始寻求愿意指导高中生做研究的教授(最终他与Kathy McKeown合作研究了如何探知情感与标注论元结构)。如此一来,他得以早早就接触到NLP运用机器学习技术处理浩繁的语音数据,这使得甚至不需要明显地运用语言学原理就有可能解决真实世界的语音问题。NACLO成了带他通往纯粹语言学的向导,如果不是因为与NACLO的相遇,他可能要到晚得多的时候才能学到语言学。

在纽约土生土长的ABC小刘同学从哥大本科毕业就进了谷歌工作。

为计算机时代而生的语言学奥林匹克

NACLO由Dragomir R. Radev与其他人共同创立于2006年。Radev在保加利亚念高中时参加过语言学奥赛,当时这项赛事已经在俄国与东欧风行逾50年,激励了成百上千天资卓越的年轻学者选择语言学为志业。在哥大攻读自然语言处理方向研究生时,Radev留意到美国还没有同等赛事。在他成为密歇根大学教授之后,他与四位有志之士——Lori Levin (卡内基梅隆大学), Thomas E. Payne (俄勒冈大学), James Pustejovsky (布兰戴斯大学), 和Tanya Korelsky (国家科学基金)——一道发起了语言学领域的全新奥林匹克。2006年在卡内基梅隆大学召开的筹备会议聚集了语言学界与计算机科学界的24人,许多来自东欧与俄国。以国际语言学奥林匹克(ILO)为模版,筹备会议的参与者开始为NACLO扎下根基。ILO始于2003年,本身模仿了更早的一些语言学奥赛。

NACLO创立者之一,带领美国队屡创辉煌的总教头辣姐夫。

比起ILO来NACLO有一个很大的区别,就是引入了计算题。随着语音与文本数据的增长,对自动化工具的需求日益增加。人们需要这些自动化工具利用语音与文本数据来改进语音识别系统和机器翻译等语音技术,来从数目庞大的文件中做文本分析与挖掘。为了训练考生对当今语言学的计算方面做好准备,NACLO的组织者设计了一些趣题,要求考生将问题表达为适应计算机解决的形式;考生在解题过程中可以获得对模式识别、抽象、推广的理解,可以懂得修剪搜索空间的必要性。

将计算科学与语言学原理转化为NACLO的趣味问题是个不小的挑战,困难重重,处处受限。算法问题的表达方式必须使得会编程解答的人也没有优势。因为不能指望高中生了解许多语言学知识,命题者不得不将他们本人从自己的知识经验中剥离开来,特意忘掉“词组”、“名词”、“字符串”、“功能”的技术性定义,忘掉对这个领域的专家来说已经是第二天性的其他事实。由世界各地的语言学家、计算机科学家、业余爱好者组成的40人“命题委员会”花上一整年构思并提交大约40道题目,在交由学生对难度、可解性、适宜性做预测试之前,每道题都会得到检查与讨论。在40道题目中,16道最终会选为赛题。

组织竞赛也要付出大量时间与后勤方面的努力,要整备考点,准备材料(还有招生),最后还要阅卷评分。几乎所有工作都是由志愿者完成的,其中许多是先前NACLO的参与者。

谁来参赛?

报考NACLO,首要条件就是意识到它的存在。NACLO仍然是个很草根的运动,在宣传推广方面只有很少的预算。教师通常是NACLO与考生之间的联络人。教师引发学生的兴趣,帮助学生备赛,在本校安排考试并且监考。不过有大约一半考生是自己找到NACLO的。即便这些考生的学校不设考点,学生仍然可以在邻近的学院与大学,例如哥大里找到社会考点。

在师生间良好的口碑帮助NACLO逐年稳步扩张,从2007年的不到200考生,到今年的1706名考生。在理科奥赛中不同寻常的是,大约一半考生是女生。女生比例至少40%,经常接近50%。

NACLO 由两个回合组成。一月下旬的初赛对美国和加拿大全体学生开放,每个国家的前10%可以参加三月份更困难的决赛。决赛中美国的前八名与加拿大的前四名代表各自国家出战ILO。

竞赛水准很高,试题设置很难。决赛中考生要在4小时内解8道题,平均30分钟每题,因此时间管理也很重要。Radev说:“每年我都想没人能够答出大部分问题,可是都有几个人得到90%以上的分数。在这么短的时间内解出这么多难题,真是令人怀疑人生,特别是想到他们预先没有在学校学过任何语言学或计算语言学的时候。”

本年度(2015年)初赛于1月29日在200个考点举行,共有1706名考生参加。初赛特色题目有取材自丹麦语、希腊语、艾马拉语、古诺尔斯语、日语、掸语、老挝语的句法问题,也有反向转录语法、音位配列限制、语义强度推断以及其他形式与计算概念方面的问题。

3月12日的决赛考了更难的问题,取材自古英语、格鲁吉亚语、纳瓦霍语、马拉加斯语、德语、马沙迦利语、苗语,有些题目涉及计算语言学的关键概念,例如局部歧义、有限状态转录机与最小拼写树。

在三周的阅卷采分工作之后,四月中旬公布了优胜者名单。前八名美国选手会组成两支队伍,每支各四人,参加今年7月在保加利亚的ILO角逐。美国国家队一队成员是华盛顿州的James Wedgwood与Kevin Yang、北卡罗莱纳的 Conor Stuart-Roe、马萨诸塞州的 James Bloxham (Wedgwood 与 Yang 来自同一所高中,湖畔高中,该校去年也输送了一名国家队队员),二队成员是纽约州的Aidan Langston、新泽西州的 Julian Gau 与Kevin Li、 密歇根州的 Jacqueline Bredenberg (两名考生——Jacqueline Bredenberg 与 Aidan Langston——不能成行,他们的位置将分别由Nilai Sarda 与 Kevin Li 代替,这第二位Kevin Li 来自加州,与James Bloxham都是2014年美国国家队队员)。

今年将出战ILO的四名顶尖加国学生是安大略的James Hyett 和 Ben Zhang、不列颠哥伦比亚的 Eugene Shen 和 阿尔伯塔的Ella Bei。

Radev感到NACLO在推广计算语言学上已经取得了明显成效,鼓舞了更多学子在传统与计算语言学方向深造。一些学生甚至在自己的中学搞起了语言学俱乐部,在NLP方向入学申请数目将持续增长——文本情感分析正在成为新的NLP分支,在商业与情报领域都有应用——的态势下,这是一个大好迹象。

为了迎合对计算语言学家不断增长的市场需求,Radev和他的伙伴们正指望着NACLO的扩张:增加考生数量,在加国法语区做竞赛试点,招募更多赞助商。NACLO网站也在扩张,增加更多训练材料,更多样题,不仅助力考生学习传统与计算语言学,而且帮助他们发现自身对于语言、逻辑与计算的亲和力。

2016年竞赛的报名将在九月开始。盼望参赛的学生和想设立考点的老师请访问NACLO网站。

NACLO 由国家科学基金、计算语言学协会北美分会、美国语言学会、雅虎、密歇根大学、卡内基梅隆大学语言技术研究所、盖尔范德社区扶助中心、布兰戴斯大学等单位提供赞助。

2015年5月19日

【译者后记:相对于奥数而言NACLO在北美仍然是个非常小众的学术活动,参与规模大约是奥数的5%。但是随着人工智能时代的到来,这个更适应新时代新要求的学科奥赛将迎来无限辉煌的明天。华人学子在NACLO中表现抢眼, 令人鼓舞。为华人少年的学术成就而欢呼,更为华人少年面向未来的学术视野而欢呼。

感谢哥伦比亚大学计算机系在第一时间给予翻译许可。】

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180213G02AD600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券