前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCJC错别字检测系统测试说明

JCJC错别字检测系统测试说明

作者头像
田春峰-JCJC错别字检测
发布2021-12-06 10:50:34
7730
发布2021-12-06 10:50:34
举报

如果你的工作跟文本校对纠错相关,每天要检查文档中的错别字,那么本文正好涉及这个主题,本文会向你介绍一点JCJC在这方面的工作。

JCJC中文错别字检测系统的定位

JCJC中文错别字检测系统目前还不能做到 100% 替代人工审核,目前的定于属于:辅助检测

目前JCJC错别字检测系统从核心原理上是:采用概率计算的方式进行错别字识别,根据概率计算的结果分为五级:

  1. 第一级、第二级、第三级:为错误级别,错误严重程度依次递减;
  2. 第四级、第五级:为句子通顺检查级别;

当您使用软件对文章进行错别字检测的时候,一般会有以下三种情况:

  1. 正确识别错别字;
  2. 误报:把原本正确的文字标识为错别字;
  3. 漏报:把原本错误的文字没有识别并标识;

误报与漏报

引起误报和漏报的原因较复杂,这是中文错别字软件面临的一个难题,一些典型的原因如下:

  • 行业词汇:主要是指专业名词,国外名词翻译标准未统一;
  • 缩略语:各行业为了简化表示一类词语而约定俗称的一些缩略表达;
  • 中文的特点导致的识别困难;
  • 不同语境中的灵活表达,由于算法策略疏漏导致的识别困难;

目前JCJC错别字检测系统中包含约:3500万词汇,并且针对提供了自定义接口,自定义接口包含两类情况:

  • 白名单:当出现误报的时候,把误报的词语作为白名单输入;
  • 黑名单:当出现漏报的时候,把漏报的词语作为黑名单输入;

JCJC错别字检测系统一直在不断升级,提升误报、漏报的识别水平。

如何提高错别字检测系统的检测效果

JCJC错别字检测系统目前定位于:辅助检测,无法完全替代人工。为了给用户更好的检测体验,可以从以下几个方面着手改进:

  1. 产品层面
    1. JCJC错别字检测系统提供的接口API中返回了与错别字相关的:位置、错误级别、建议词 等信息, 可以利用这些字段在用户界面UI 中进行提示,告知用户识别的状态;
    2. 第四级、第五级是通顺检测级别,此类信息应当明确告知用户,或者在 前端界面UI 显示时予以忽略;( 由用户决定是否显示 )
  2. 技术层面
    1. JCJC错别字检测系统,是一套适用于各行业的、独立于业务的错别字检测系统。在实际应用中,各个行业由自己的检测需求和文字特点,可以有技术人员根据JCJC错别字检测接口API进行定制化,以适应业务需求。
  3. 运营层面
    1. 针对客户的业务需求,发现客户业务特点,比如:新增的词语

综上:为了给最终用户提供更好的文本纠错体验,需要产品技术运营以及JCJC错别字检测系统各方的努力才能达成。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/08/30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • JCJC中文错别字检测系统的定位
  • 误报与漏报
  • 如何提高错别字检测系统的检测效果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档