自然语言处理技术如何适应校园场景

我们在校园落地大数据产品,大量使用了自然语言处理技术,在使用过程中发现越接近场景,算法就越需要优化来适应这个环境特点。一开始我们并没有在乎这些细节,因为网络上开放的“分词词库”,“情感词库”很多也很成熟,我们直接调用就可以得到不错的结果。直到有一天我们发现,我们的机器漏掉了非常多的关键词汇,而这些漏掉的才真正的重要,就像错过了才知道后悔一样。而且很多时候,我们的机器会犯下一些愚蠢错误,就像“A食堂比B食堂贵,所以我选择这家”,机器就无法理解到底选择的是哪家。

于是,我们潜下心来研究符合校园特点的自然语言处理技术,试图让机器更加智能,让它能够理解我们的语言,甚至捕获到我们”校园“这个语境下的“转意”和“情感”。我们一直向着这个方向努力,支撑这个发展的三种理论,即摩尔定律、深度学习和数学模型。而奠基所有这些的基础,就是我们常提到的“校园大数据”。

有了校园大数据,特别是言论数据,就有了言论模型,我们基于大量的数据,分析出特点,构建符合校园特征的词库用于分词,比如在校园中,考研与升学、挂科与不及格都可以看作是近义词,因为他们在纯数学算法中的距离更近。

可以说,当我们深入研究符合校园的“文本语义理解系统”之初就遇到了难点,这些难点容易被忽略掉,越简单的事情往往越复杂。为了机器能够更好的理解语言,我们从字、词、句、文四个层次构建模型,可以说我们过五关斩六将实现我们独特的符合校园场景的自然语言处理技术。

第一关,我们需要解决“分词“的问题

比如:卓智人工智能研究院,可以分解为”卓智、人工智能、研究院“,但实际的结果让人哭笑不得,机器把它这样分解“智人、人工、智能、研究”,因为在这个语境下,机器难以理解“卓智”是一家公司。这里面涉及“分词颗粒度、局部转义、同义词、指代归属、上下文依赖”等问题。

在校园场景中,可以举几个简单的例子便于大家理解:

【颗粒度】卓智大数据研究院/大数据/研究院

【局部转义】金融风暴“洗礼”/美元持续“疲软”

【同义近义词】考研=升学、挂科=不及格

【上下文依赖】什么意思,小意思,我方便一下

【指代归属】北京大学=北大=我校

为了解决校园中这些语境的需求,我们发现通用的词库已经不能满足需求,于是我们着手构建符合校园特征的词库,反复的测试我们的分词结果,并赋予机器这种技能,经过一段时间的积累,我们已经能够在校园这个语言环境中更加准确的分词。

第二关,我们需要理解“语义“

先举几个例子:

【领域感知理解】对于“仪表”这个词语,在工程专业代表“仪表设备”,但生活中代表一个人的“形象”。

【省略、双关、反讽、假借、暗喻】你觉得可以?结合标点符号,应该代表“不可以”

【歧义句理解】限量签名网球拍卖了。问题是网球“拍卖”,还是“网球拍”卖了

类似这种歧义非常多,在词语、句子、指代、修饰范围等各种情况下均会发生。常见的“省略”、“双关”、“反讽”、“假借”、“暗喻”等说法,更加大了正确理解文字的难度,所以必须要从词法、句法、语义、上下文、以及领域知识等方面共同处理来消除歧义问题。为了解决这些特定语境,特定场景下的语义,我们根据校园的专业划分,言论发表场景,增加了不同领域的词库权重,来适应这些内容,得到了较好的效果。

第三关,构建校园的“知识图谱”

构建校园的知识图谱,对于正确理解校园中的自然语言是非常重要的事情,比如:“张主任”到底是指哪个部门的?这就需要了解“说话人”的从属关系,来辅助判断。举个例子:

【实体抽取】人名、专业名词、课程名称、法规等

【关系抽取】指标关联,动作关联,从属关联等

【属性抽取】时间,型号,班级,电话号段等

基于校园的知识图谱,机器就可以判断,“张主任”在纯数学计算结果中约等于信息中心的“张明”主任。

第四关,逐层理解语义

我们在做“脱敏工具”时发现,一篇文章中出现了高敏感词汇,并不代表这篇文章是敏感的或者是负面的。相反,整篇文章并不包含敏感词汇,但文章确是负面的。为了解决这个问题,我们让机器分层理解。

在词这一层级,分析词汇与词汇间的关系;

在句法的层级分析句子结构和短串关系;

最终根据权重理解整篇文章。

第五关,为校园场景定制语言模型

1.根据不同的专业领域构建语言模型,例如:不同领域的特定语法(定金和订金)等

2.为复杂的评论构建语言模型,例如:灌水言论的识别、评论的情感分析等等

3.积累行业语言词库:医科大学、工程技术专业、政法专业、金融专业具有独特的语言词库和名词词库,比如:政法专业的“取保候审”、金融专业的“同业拆借”等词汇。

除了以上五关外,我们发现在校园中有独特的敏感词库需求,于是我们提供了一套词库管理工具,让学校自主添加敏感词,并标出敏感度。但单纯依赖词库、词典这样的传统方法,效果会随着时间迅速降低,于是我们开始研究机器(算法)对新样本的适应能力,让机器具备“举一反三”的能力,具备学习能力的机器可以自动优化模型,泛化能力加强,效果持续提升,这样机器会越来越理解校园中的自然语言。

我们不懈的努力,只为在校园语言分析中可以提高1%的准确度。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181030G0XJAH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券