前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中文分词工具之基于字标注法的分词

中文分词工具之基于字标注法的分词

作者头像
IT小白龙
修改2019-06-26 18:53:44
6690
修改2019-06-26 18:53:44
举报

基于字标注法的分词

中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。

1. 2-tag法

2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”,而“大学生”的标注结果为“大/B 学/I 生/I”

对于以下句子

迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话

使用2-tag(B,I)的标注结果为

迈/B向/I 充/B满/I 希/B望/I 的/B 新/B 世/B纪/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 讲/B话/I

2.4-tag法

4-tag标注集合为{S,B,M,E},S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。对于以下句子

迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话

使用4-tag(S,B,M,E)的标注结果为

迈/B向/E 充/B满/E 希/B望/E 的/S 新/S 世/B纪/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 讲/B话/E

参考我爱自然语言处理博客, python实现方法为

本文使用 pku语料库,其原始格式为

标注后的结果为

3.6-tag法

6-tag标注集合为{S,B,M1,M2,M,E},S表示单字为词,B表示词的首字,M1/M2/M表示词的中间字,E表示词的结尾字。例如“大学生”可以标注为“大/B 学/M 生/E” 。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档