腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
字根中文校对软件
专栏成员
举报
188
文章
194209
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(188)
http(43)
java(39)
编程算法(29)
搜索引擎(23)
api(14)
windows server(14)
数据库(13)
sql(11)
lucene/solr(10)
html(9)
.net(8)
网站(8)
开源(8)
xml(7)
ide(7)
aop(7)
其他(6)
c#(6)
eclipse(6)
spring(6)
容器(6)
爬虫(6)
windows(6)
servlet(5)
云数据库 SQL Server(5)
oracle(5)
git(5)
github(5)
linux(5)
网络安全(5)
https(5)
c++(4)
python(4)
json(4)
ubuntu(4)
容器镜像服务(4)
人工智能(4)
企业(4)
php(3)
go(3)
actionscript(3)
apache(3)
神经网络(3)
腾讯云测试服务(3)
存储(3)
缓存(3)
hive(3)
测试(3)
区块链(2)
NLP 服务(2)
机器学习(2)
javascript(2)
ruby(2)
ajax(2)
打包(2)
tomcat(2)
中文分词(2)
analyzer(2)
centos(2)
深度学习(2)
mapreduce(2)
it(2)
接口(2)
科技(2)
系统(2)
perl(1)
bash(1)
scala(1)
asp.net(1)
symfony(1)
postgresql(1)
access(1)
jar(1)
struts(1)
unix(1)
bash 指令(1)
delphi(1)
文件存储(1)
TDSQL MySQL 版(1)
检测工具(1)
mongodb(1)
svg(1)
运维(1)
jdk(1)
hadoop(1)
jvm(1)
ssh(1)
正则表达式(1)
erp(1)
gui(1)
yum(1)
面向对象编程(1)
jdbc(1)
推荐系统(1)
tcp/ip(1)
udp(1)
socket编程(1)
kvm(1)
uml(1)
大数据(1)
机器人(1)
数据结构(1)
hbase(1)
虚拟化(1)
sdk(1)
backup(1)
com(1)
crontab(1)
enterprise(1)
firefox(1)
im(1)
office(1)
prefix(1)
production(1)
sh(1)
status(1)
tree(1)
vmware(1)
web(1)
yahoo(1)
备份(1)
编辑器(1)
部署(1)
服务器(1)
工具(1)
脚本(1)
连接(1)
乱码(1)
权限(1)
数组(1)
字符串(1)
搜索文章
搜索
搜索
关闭
中文分词和二元分词综合对比
中文分词
编程算法
为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。
田春峰-JCJC错别字检测
2019-02-14
840
0
一种快速的未登陆词识别方法(原理和实现)
编程算法
中文分词
最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放. 但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉. 算法的假设: 1. 未登陆词是由单字组成的; 2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词; 测试文章: 最近电视剧大长今很火,我就选取了介绍大长今的文章, 地址:http://www.360doc.com/showWeb/0/0/18183.aspx 识别结果如下: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. 长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘 算法原理: 首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词. 下面是一个算法的计算过程展示: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. >>>8,9;9,10 长今 >>>237,238;238,239 职场 >>>595,596;596,597;597,598 闵政浩 >>>189,190;190,191 韩剧 >>>1111,1112;1112,1113;1113,1114 郑云白 >>>599,600;600,601 连生 >>>610,611;611,612 主簿 >>>975,976;976,977;977,978;978,979 冷庙高香 >>>1233,1234;1234,1235 义字 >>>559,560;560,561 医女 >>>561,562;562,563 张德 >>>3114,3115;3115,3116 剩者 >>>534,535;535,536 济州 >>>580,581;581,582 选拨 >>>2071,2072;2072,2073 文秘 本算法是在:小叮咚分词的基础上进行的. 欢迎大家一起交流,改进这个算法.
田春峰-JCJC错别字检测
2019-02-14
655
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档