首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

中英文拼写检测纠正开源项目使用入门 word-checker 1.1.0

项目简介

word-checker[1]本项目用于单词拼写检查。支持英文单词拼写检测,和中文拼写检测。

特性说明

可以迅速判断当前单词是否拼写错误

可以返回最佳匹配结果

可以返回纠正匹配列表,支持指定返回列表的大小

错误提示支持 i18n

支持大小写、全角半角格式化处理

支持自定义词库

内置 27W+ 的英文词库

支持指定英文的编辑距离

支持基本的中文拼写检测

变更日志

变更日志[2]

快速开始

JDK 版本

Jdk 1.7+

maven 引入

测试案例

会根据输入,自动返回最佳纠正结果。

核心 api 介绍

核心 api 在  工具类下。

工具类提供了长文本中英文混合的自动纠正功能,当然也支持单个单词。

英文测试例子

参见 EnWordCheckerTest.java[3]

是否拼写正确

返回最佳匹配结果

默认纠正匹配列表

指定纠正匹配列表大小

中文拼写纠正

是否拼写正确

返回最佳匹配结果

默认纠正匹配列表

指定纠正匹配列表大小

长文本中英文混合

情景

实际拼写纠正的话,最佳的使用体验是用户输入一个长文本,并且可能是中英文混合的。

然后实现上述对应的功能。

拼写是否正确

返回最佳纠正结果

判断文本拼写是否正确

每一个词,对应的纠正结果。

判断文本拼写是否正确

同上,指定最多返回的个数。

格式化处理

有时候用户的输入是各式各样的,本工具支持对于格式化的处理。

大小写

大写会被统一格式化为小写。

全角半角

全角会被统一格式化为半角。

自定义英文词库

文件配置

你可以在项目资源目录创建文件

内容如下:

不同的词独立一行。

每一行第一列代表单词,第二列代表出现的次数,二者用逗号  隔开。

次数越大,在纠正的时候返回优先级就越高,默认值为 1。

用户自定义的词库优先级高于系统内置词库。

测试代码

我们在指定了对应的单词之后,拼写检测的时候就会生效。

自定义中文词库

文件配置

你可以在项目资源目录创建文件

内容如下:

使用英文空格分隔,前面是错误,后面是正确。

后期 Road-Map

支持英文分词,处理整个英文句子

支持中文分词拼写检测

引入中文纠错算法,同音字和形近字处理。

支持中英文混合拼写检测

技术鸣谢

Words[4]提供的原始英语单词数据。

开源地址

References

word-checker:https://github.com/houbb/word-checker/

变更日志:https://github.com/houbb/word-checker/blob/master/CHANGELOG.md

EnWordCheckerTest.java:https://github.com/houbb/word-checker/tree/master/src/test/java/com/github/houbb/word/checker/util/WordCheckerHelperTest.java

Words:https://github.com/atebits/Words

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230404A084O200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券