首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

冯志伟:从汉字信息处理到自然语言处理

2019年第4期

中华人民共和国成立70周年

新中国的语言学事业,今年走进第70个年头。我们邀请了语言学界德高望重的前辈,讲述他们亲身经历的一些标志性事件,为中国语言学史留下宝贵的记录。回首我们走过的道路,并不只是恋旧,而是为了更好地面向未来,使我们在继续前行的征途上,眼界更为开阔,目光更为敏锐,方向更为精准,步履更为坚定。

——陈 平

本期嘉宾

冯志伟

教育部语言文字应用研究所

从汉字信息处理到自然语言处理

早在1956年,自然语言的计算机处理就被列入中国科学工作的发展规划,成为其中的一个重要课题——“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”,在国家规划的层面,正式启动中国自然语言处理的研究

电子计算机是西方人发明的,使用西文打字机键盘。而用电子计算机来处理汉字,就会遇到巨大的困难,就要解决汉字的代码化、数字化以及汉字输入输出计算机的问题

因此,中国在20世纪60年代末期就开始了探索和实践。

国际标准化组织(ISO)于1984年开始研制《信息技术通用多八位编码字符集(UCS)》(即ISO/IEC10646),1993年公布了该标准的第一部分(体系结构与基本多文种平面),在UCS的表意文字部分,共收汉字字符20902个。这些国家标准和国际标准的研制实现了汉字的代码化、数字化,有力地保证了汉字输入研制的顺利进行。汉字输入的研制成果在中国的现代化建设中发挥了重要作用。

汉字输出也是中国自然语言处理研究的特殊问题之一。为了解决这个问题,“七四八”工程把能够输出高质量汉字的汉字照相排版编辑系统作为重点攻关项目,经过多年的艰苦奋斗,取得了令人瞩目的成就,全面取代了传统的铅字排版,在印刷技术上结束了“铅与火”的时代。

随着计算机汉字输入输出问题的解决,中国的汉字信息处理技术得到了多方面的发展,在汉字信息压缩、汉字自动识别、汉字信息通讯等多项技术上,也取得了显著的成就。今天,一个高度信息化的计算机汉字文化新时代已经到来,古老的汉字又重新焕发出蓬勃的青春活力

除了汉字信息处理之外,中国在自然语言处理的其他方面也取得了很大的成绩,部分自然语言处理技术已经达到或者基本达到实用化水平,如机器翻译系统、语音合成系统、语音识别系统、搜索引擎、智能问答系统、各种类型的汉语语料库等。

关键词:搜索

在实际应用的驱动下,自然语言处理技术不断与各种新技术相结合,开发出越来越多的实用技术。例如,网络内容管理和监控的实用技术研究,不仅与自然语言处理技术有关,而且与网络技术、情感计算、图像理解等技术有关;语音自动翻译的实用技术涉及机器翻译、语音识别、语音合成、语音通讯、人机交互等多种技术。

自然语言处理研究已经发展成了一个名副其实的多边缘的交叉学科,我们可以通过语言学与数学、计算机科学、心理学、认知科学、人工智能、生物学等多学科的通力合作,把人类的语言知识与计算机的计算能力结合起来,从而解决自然语言处理中的各种困难问题,并进而揭示人类大脑处理自然语言的奥秘。语言学将成为自然科学、思维科学和人文科学之间的桥梁。一向被视为冷门的语言学,现在已经成长为一门带头的学科,成为现代科学技术研究的一个热点。语言是人类智能的重要组成部分,自然语言处理为人工智能技术提供了语言学支撑,成为了人工智能皇冠上一颗璀璨的明珠。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191009A0BGR200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券