首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。...q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度.../w 4.生语料库和熟语料库 语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工...、分析和处理之后才能成为可用的语料库语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

4.8K80

COIG:开源四类中文指令语料库

我们构建了5个开源的高质量中文指令语料库,包括68k的普通中文指令语料库、62k的中文考试指令语料库、3k的中文人值对齐语料库和13k的中文反事实校正多轮聊天语料库,作为沿着指出的研究方向构建新的中文教学语料库的样本...Part3COIG:中文开源指令数据通用语料库 第3.1节中分别介绍了一个经过人工验证的普通指令语料库,在第3.2节中介绍了一个经过人工注释的考试指令语料库,在第3.3节中介绍了一个人类价值调整指令语料库...,在第3.3节中介绍了一个多轮反事实修正聊天语料库,在第3.5节中介绍了一个leetcode指令语料库。...我们提供这些新的指令语料库是为了帮助社区对中文LLMs进行指令调整。这些指令语料库也是如何有效建立和扩展新的中文指令语料库的模板工作流程。...6指令语料库构建工作流程的实证验证 本节总结了关于中文指令语料库建设工作流程的合理实证结论和经验。

69820

基于Python的语料库数据处理(三)

一起来学习用Python进行语料库数据处理吧! 一、条件判断 在执行某个语句前,我们可能需要对某个条件进行判断,并根据条件判断的结果来决定是否执行该语句。这时就需要使用条件判断if。...条件判断if的基本句法为: if : 在用Python进行语料库数据处理时,常用的条件判断操作符有“”、“=”、“==”以及..."A" start = 2011001 end = 2011101 for i in range(start, end): print(prefix + str(i)) 四、读写单个文本 语料库数据大多为文本文件...在进行语料库处理时,首先要对文本进行读取。读取文本需要使用open函数。...#变为小写 file_out.write(line_new) #写出 file_in.close() file_out.close() 推荐阅读:基于Python的语料库数据处理

61540

Github 项目推荐 | 中文突发事件语料库

Github 链接: https://github.com/shijiebei2009/CEC-Corpus 中文突发事件语料库是由上海大学(语义智能实验室)所构建。...国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中...与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。 具体内容可参见上海大学公开发表的相关硕士博士论文,以及期刊会议论文等。...本语料库的研究与开发由国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)资助。

1.4K40

基于Python的语料库数据处理(二)

一起来学习用Python进行语料库数据处理吧!...一、字符串运算 语料库处理中,Python语言的字符串运算主要是将词语、句子连接起来,或者将词语、句子重复若干次,如:string1+string2(两个字符串相加),string*n(将该字符串重复n...二、字符串与数值的转换 在进行语料库数据处理时,不要将字符串与数值混淆。我们可以使用str()函数将数字转换成字符串,也可以用float()函数或int()函数将字符串转换成数值。具体示例如下: ?...三、语料库数据处理常用字符串函数 语料库常数据处理常用的字符串函数有: 1.长度和大小相关函数:len(string)——计算字符长度,string.lower()——字符串字母全部小写,string.upper...四、结语 这是基于Python的语料库数据处理专栏的第二期,以后也会定期更新。有在研究语料库的朋友可以一起来学习,使用Python进行语料库数据处理会更方便、更快捷。

81920
领券