前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

作者头像
JasonhavenDai
发布2018-04-11 14:38:43
4.8K0
发布2018-04-11 14:38:43
举报
文章被收录于专栏:JasonhavenDaiJasonhavenDaiJasonhavenDai
  • PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

1.标记说明

代码

名称

Ag

形语素

a

形容词

ad

副形词

an

名形词

Bg

区别语素

b

区别词

c

连词

Dg

副语素

d

副词

e

叹词

f

方位词

g

语素

h

前接成分

i

成语

j

简略语

k

后接成分

l

习用语

Mg

数语素

m

数词

Ng

名语素

n

名词

nr

人名

ns

地名

nt

机构团体

nx

外文字符

nz

其它专名

o

拟声词

p

介词

Qg

量语素

q

量词

Rg

代语素

r

代词

s

处所词

Tg

时间语素

t

时间词

Ug

助语素

u

助词

Vg

动语素

v

动词

vd

副动词

vn

名动词

w

标点符号

x

非语素字

Yg

语气语素

y

语气词

z

状态词

2.格式说明

  1. 语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。
  2. 每一行的开头是编号。比如“19980101-01-001-001”表示这一自然段是1998年1月1日的第01版的第001篇文章的第001自然段,用短横线隔开的4部分按照顺序是“年月日-版号-篇章号-段号”。标号也作为一个词进行标注,词性固定为“m(数词)”。
  3. 一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。
  4. 标号之后,是2个单字节空格,然后开始正文。
  5. 正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词,在标记之后也有2个单字节空格,保持格式一致。
  6. 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后空两个单字节空格,保持了格式的一致。

3.例子

19980101-01-001-001/m 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 19980101-01-001-006/m 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n 电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [中国香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 中国澳门/ns 和/c 中国台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良>好/a 的/u 祝愿/vn !/w

4.生语料库和熟语料库

  • 语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工、分析和处理之后才能成为可用的语料库
  • 生语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的

5.其他语料库汇总

  1. http://blog.csdn.net/qq_31550425/article/details/54983414
  2. http://blog.csdn.net/hengwen1991/article/details/51750630
  3. http://blog.csdn.net/baiyi_canggou/article/details/59108547
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.12.26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.标记说明
  • 2.格式说明
  • 3.例子
  • 4.生语料库和熟语料库
  • 5.其他语料库汇总
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档