腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

AI科技评论

专栏作者

4092

文章

3375591

阅读量

184

订阅数

学界 | 北大开源中文分词工具包 pkuseg

中文分词 uml https 网络安全

考虑到 jieba 分词和 THULAC 工具包等并没有提供细领域的预训练模型，为了便于比较，开发团队重新使用它们提供的训练接口在细领域的数据集上进行训练，用训练得到的模型进行中文分词。他们选择 Linux 作为测试环境，在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。在此过程中，他们使用第二届国际汉语分词评测比赛提供的分词评价脚本，其中 MSRA 与 WEIBO 使用标准训练集测试集划分，CTB8 采用随机划分。对于不同的分词工具包，训练测试数据的划分都是一致的；即所有的分词工具包都在相同的训练集上训练，在相同的测试集上测试。

2019-10-31

8480

ACL2019 | 中文到底需不需要分词

NLP 服务中文分词深度学习

AI 科技评论按，本文转载自微信号“香侬科技”，AI 科技评论获授权转载。近日，香侬科技发表论文Is Word Segmentation Necessary for Deep Learning of

2019-05-24

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态