前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库

作者头像
量子位
发布2019-03-08 11:19:10
2.3K0
发布2019-03-08 11:19:10
举报
文章被收录于专栏:量子位量子位
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI

中文信息很多,但要找到合适的中文语料很难。

有人看不下去了,在GitHub上开了一个项目,专门贡献中文语料资源。

他说,要为解决中文语料难找贡献一份力量。

什么样的资源?

目前,这个项目中一共有3种json版资源:

包含104万个词条的维基百科资源,包含250万篇新闻的新闻语料,以及包含150万个问答的百科类问答资源。

一般来说,这些资源可以作为通用的中文语料,用于预训练或者构建词向量等等。

不同的资源,用处也有不同,比如维基百科和问答百科,可以用来构建知识问答等等。

新闻语料资源,囊括了标题、关键词、描述和正文,也可以用来训练标题生成模型、关键词生成模型等等。

此外,在对数据集划分过的新闻语料和百科类问答资源中,只提供训练集和验证集,不提供测试集数据的下载。

是因为——

希望更多人参与

资源的贡献者表示,希望大家报告模型在验证集上的准确率,并提供模型信息、方法描述、运行方式,以及可运行的源代码(可选)。

这些信息都有的话,资源贡献者会在测试集上测试模型,并给出准确率。

他表示,项目中的语料库将会不断扩充,号召大家多多贡献资源,并给出了相应的目标:

到2019年5月1日,放出10个百万级中文语料&3个千万级中文语料。 到2019年12月31日,放出30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料。

从目前已经有的资源来看,一个语料可以是一个问答,也可以是一个词条等等。

这份资源的贡献者,名为徐亮,杭州实在智能的算法专家,主要关注文本分类、意图识别、问答和面向任务的对话。

如果你有兴趣,请收好资源传送门:

https://github.com/brightmart/nlp_chinese_corpus

此外,量子位之前也介绍过几份中文NLP资源,也一并附于此:

有人收罗了40个中文NLP词库,放到了GitHub上

腾讯AI Lab开源800万中文词的NLP数据集

非正式汉语数据集资源上线,帮你训练网络语言处理

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么样的资源?
  • 希望更多人参与
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档