如果你的工作跟文本校对纠错相关,每天要检查文档中的错别字,那么本文正好涉及这个主题,本文会向你介绍一点JCJC在这方面的工作。
JCJC中文错别字检测系统的定位
JCJC中文错别字检测系统目前还不能做到 100% 替代人工审核,目前的定于属于:辅助检测。
目前JCJC错别字检测系统从核心原理上是:采用概率计算的方式进行错别字识别,根据概率计算的结果分为五级:
- 第一级、第二级、第三级:为错误级别,错误严重程度依次递减;
- 第四级、第五级:为句子通顺检查级别;
当您使用软件对文章进行错别字检测的时候,一般会有以下三种情况:
- 正确识别错别字;
- 误报:把原本正确的文字标识为错别字;
- 漏报:把原本错误的文字没有识别并标识;
误报与漏报
引起误报和漏报的原因较复杂,这是中文错别字软件面临的一个难题,一些典型的原因如下:
- 行业词汇:主要是指专业名词,国外名词翻译标准未统一;
- 缩略语:各行业为了简化表示一类词语而约定俗称的一些缩略表达;
- 中文的特点导致的识别困难;
- 不同语境中的灵活表达,由于算法策略疏漏导致的识别困难;
目前JCJC错别字检测系统中包含约:3500万词汇,并且针对提供了自定义接口,自定义接口包含两类情况:
- 白名单:当出现误报的时候,把误报的词语作为白名单输入;
- 黑名单:当出现漏报的时候,把漏报的词语作为黑名单输入;
JCJC错别字检测系统一直在不断升级,提升误报、漏报的识别水平。
如何提高错别字检测系统的检测效果
JCJC错别字检测系统目前定位于:辅助检测,无法完全替代人工。为了给用户更好的检测体验,可以从以下几个方面着手改进:
- 产品层面
- JCJC错别字检测系统提供的接口API中返回了与错别字相关的:位置、错误级别、建议词 等信息, 可以利用这些字段在用户界面UI 中进行提示,告知用户识别的状态;
- 第四级、第五级是通顺检测级别,此类信息应当明确告知用户,或者在 前端界面UI 显示时予以忽略;( 由用户决定是否显示 )
- 技术层面
- JCJC错别字检测系统,是一套适用于各行业的、独立于业务的错别字检测系统。在实际应用中,各个行业由自己的检测需求和文字特点,可以有技术人员根据JCJC错别字检测接口API进行定制化,以适应业务需求。
- 运营层面
- 针对客户的业务需求,发现客户业务特点,比如:新增的词语
综上:为了给最终用户提供更好的文本纠错体验,需要产品、技术、运营以及JCJC错别字检测系统各方的努力才能达成。