首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

全国中文纠错大赛达观冠军方案分享:多模型结合的等长拼写纠错

中文拼写检查任务是中文自然语言处理中非常具有代表性和挑战性的任务,其本质是找出文本段落中的错别字。这项任务在各种领域,如公文,新闻、财报中都有很好的落地应用价值。而其任务的困难程度也赋予了它非常大的研究空间。达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了全国冠军,赛道二中文语法纠错(Chinese Grammatical Error Diagnosis)任务中获得了亚军。本文基于赛道一中文拼写检查任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道二中文语法纠错的获奖方案已经分享在达观数据官方公众号中。

04

在线手写识别的多卷积神经网络方法

本文所描述的研究主要关注在线手写体识别系统中的单词识别技术。该在线手写体识别系统使用多组件神经网络(multiple component neural networks, MCNN)作为分类器的可交换部分。作为一种新近的方法,该系统通过将手写文字分割成可单独识别的小片段(通常是字符)来进行识别。于是,识别结果便是每个已识别部分的组合。然后将这些组合词发送给单词识别模块作为输入,以便用一些字典搜索算法来从里面选择最好的一个。所提出的分类器克服了传统的分类器对大量字符类别进行分类时的障碍和困难。此外,所提出的分类器还具有可扩展的能力,可以通过添加或更改组件网络和内置字典的方法来动态地识别另外的字符类别。

07

文本歧义在隐私政策知识图谱构建中的影响

目前,服务提供商通常会以人工的方式编写隐私政策,告知数据被共享、存储和使用的所有方式。在这种背景下,当一个新的服务推出时,隐私政策也要做相应的调整,同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统,通过NLP的相关技术,从政策文本中提取半结构化数据,在知识图谱中表示出来。然而实际上,隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中,作者设计了一个从隐私政策中提取影响其模糊性的特征的系统,对隐私政策模糊性水平进行分类,在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了,当隐私政策文本模糊不清时,基于NLP的提取方法难以得到准确的结果。

03
领券