谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。 很多人问博主为什么每次的头像是奥黛丽赫本,因为她是博主女神,每天看看女神也是不错的嘛!
查看之前文章请点击右上角,关注并且查看历史消息,谢谢您的阅读支持
THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理实验室推出的一套中文词法分析工具包,主要包括中文分词和词性标注功能。THULAC具有如下几个特点:
-t2s 将句子从繁体转化为简体
-seg_only 只进行分词,不进行词性标注
-deli delimeter 设置词与词性间的分隔符,默认为下划线_
-filter 使用过滤器去除一些没有意义的词语,例如“可以”。
-user userword.txt 设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
-model_dir dir 设置模型文件所在文件夹,默认为models/
-input input_file 设置从文件读入,默认为命令行输入
-output output_file 设置输出到文件中,默认为命令行输出
模型训练程序train_c是THULAC分词模型的训练程序,用户可以使用train_c训练获得THULAC的分词模型。
./train_c [-s separator] [-b bigram_threshold] [-i iteration] training_filename model_filename
使用training_filename为训练集,训练出来的模型名字为model_filename
-s 设置词与词性间的分隔符,默认为斜线/
-b 设置二字串的阀值,默认为1
-i 设置训练迭代的轮数,默认为15
我们使用默认的分隔符(斜线/)作为例子,训练集内容应为
我/r 爱/vm 北京/ns 天安门/ns
类似的已经进行词性标注的句子。
若要训练出只分词的模型,使用默认的分隔符(斜线/)作为例子,训练集内容应为
我/ 爱/ 北京/ 天安门/
类似的句子。
将训练出来的模型覆盖原来models中的对应模型,之后执行分词程序即可使用训练出来的模型。
我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内代表分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。
我们在统一测试环境下,对若干流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:
msr_test(560KB)
Algorithm | Time | Precision | Recall | F-Measure |
---|---|---|---|---|
LTP-3.2.0 | 3.21s | 0.867 | 0.896 | 0.881 |
ICTCLAS(2015版) | 0.55s | 0.869 | 0.914 | 0.891 |
jieba(C++版) | 0.26s | 0.814 | 0.809 | 0.811 |
THULAC_lite | 0.62s | 0.877 | 0.899 | 0.888 |
pku_test(510KB)
Algorithm | Time | Precision | Recall | F-Measure |
---|---|---|---|---|
LTP-3.2.0 | 3.83s | 0.960 | 0.947 | 0.953 |
ICTCLAS(2015版) | 0.53s | 0.939 | 0.944 | 0.941 |
jieba(C++版) | 0.23s | 0.850 | 0.784 | 0.816 |
THULAC_lite | 0.51s | 0.944 | 0.908 | 0.926 |
除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:
CNKI_journal.txt(51 MB)
Algorithm | Time | Speed |
---|---|---|
LTP-3.2.0 | 348.624s | 149.80KB/s |
ICTCLAS(2015版) | 106.461s | 490.59KB/s |
jieba(C++版) | 22.558s | 2314.89KB/s |
THULAC_lite | 42.625s | 1221.05KB/s |
a/形容词 c/连词 d/副词 e/语气词 f/方位词 g/助词
h/前接成分 id/习语 j/简称 k/后接成分 l/处所词
m/数词 mq/数量词 n/名词 ni/机构名 np/人名
ns/地名 nz/其它专名 o/拟声词 p/介词 q/量词
r/代词 t/时间词 u/助词 v/动词 w/标点 x/其它
Source | Description | Size | Date |
---|---|---|---|
THULAC_lite | THULAC_lite分词源代码(C++版) | 799KB | 2016-01-10 |
THULAC_lite分词源代码(java版) | 588KB | 2016-01-20 | |
THULAC_lite分词java版可执行的jar包 | 55KB | 2016-01-20 | |
THULAC模型,包括分词模型和词性标注模型 | 58.2MB | 2016-01-10 | |
THULAC_pro_c++_v1.zip | THULAC模型,包括更复杂完善的分词和词性标注模型以及分词词表 | 162MB | 2016-01-10 |
该工具目前仅处理UTF8编码中文文本,之后会逐渐增加支持其他编码的功能,敬请期待。
更新时间 | 更新内容 |
---|---|
2016-01-20 | 增加THULAC分词Java版本。 |
2016-01-10 | 开源THULAC分词工具C++版本。 |
量化投资与机器学习
知识、能力、深度、专业
勤奋、天赋、耐得住寂寞