专栏首页Python数据科学北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型

北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型

中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。

最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Python。

工具包的分词准确率,远远超过THULAC结巴分词这两位重要选手。

除此之外,PKUSeg支持多领域分词,也支持用全新的标注数据来训练模型。

准确度对比

这次比赛,PKUSeg的对手有两位:

一位是来自清华的THULAC,一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。

测试环境是Linux,测试数据集是MSRA (新闻数据) 和CTB8 (混合型文本) 。

结果如下:

比赛用的评判标准,是第二届国际汉语分词评测比赛提供的分词评价脚本。

F分数错误率两项指标上,PKUSeg都明显优于另外两位对手。

食用方法

预训练模型

PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的。

一是用MSRA (新闻语料) 训练出的模型: https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA 二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型: https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA 三是在微博 (网络文本语料) 上训练的模型: https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

微博语料举栗

大家可以按照自己的需要,选择加载不同的模型。

除此之外,也可以用全新的标注数据,来训练新的模型。

代码示例

1代码示例1        使用默认模型及默认词典分词
2import pkuseg
3seg = pkuseg.pkuseg()                #以默认配置加载模型
4text = seg.cut('我爱北京天安门')    #进行分词
5print(text)
1代码示例2        设置用户自定义词典
2import pkuseg
3lexicon = ['北京大学', '北京天安门']    #希望分词时用户词典中的词固定不分开
4seg = pkuseg.pkuseg(user_dict=lexicon)    #加载模型,给定用户词典
5text = seg.cut('我爱北京天安门')        #进行分词
6print(text)
代码示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')    #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
text = seg.cut('我爱北京天安门')            #进行分词
print(text)

如果想自己训练一个新模型的话:

代码示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)    #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型

本文分享自微信公众号 - Python数据科学(PyDataScience)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Awesome-Chinese-NLP:中文自然语言处理相关资料

    推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可...

    AINLP
  • 使用SolrJ(即java客户端)开发Solr。

    1、什么是SolrJ呢?   答:Solrj是访问Solr服务的java客户端,提供索引和搜索的请求方法,SolrJ通常在嵌入在业务系统中,通过SolrJ的AP...

    别先生
  • Elasticsearch 6.x版本全文检索学习之倒排索引与分词、Mapping 设置

    1、Elasticsearch的常见术语。注意:Elasticsearch6.x版本以后概念发生了变化。

    别先生
  • 基于LSTM搭建文本情感分类的深度学习模型:准确率95%

    传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱...

    机器学习AI算法工程
  • 自然语言处理的中文语义分析模式介绍

    随着计算机的使用范围更加广泛,社会信息化程度提高,计算机的使用频率增加,人们对自然语言理解也提出了更高的要求,而对于自然语言的理解,则基于中文语义分析的研究和分...

    用户6287968
  • Solr的知识点学习 Solr单机版的安装与使用

    1、Solr单机版的安装与使用,简单写了如何进行Solr的安装与使用。那么很多细节性问题,这里进行简单的介绍。我使用的是Solr与Tomcat整合配置。

    别先生
  • ElasticSearch安装中文分词器IK

    1、安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版...

    别先生
  • 我叫你一声,你敢答应吗?

    西游记著名桥段“我叫你一声你敢答应吗?”想必大家都有非常深刻的印象,甚至还会浮出这个画面:

    HuangWeiAI
  • 『开发技术』Python中文分词工具SnowNLP教程

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    小宋是呢

扫码关注云+社区

领取腾讯云代金券