前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【语料库】中文公开聊天语料库

【语料库】中文公开聊天语料库

作者头像
小草AI
发布2019-05-29 15:06:07
9.3K1
发布2019-05-29 15:06:07
举报
文章被收录于专栏:机器学习与python集中营

转自:https://github.com/codemayq/chaotbot_corpus_Chinese

python进阶教程

机器学习

深度学习

长按二维码关注

说明

该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

该库搜集了包含

  • chatterbot
  • 豆瓣多轮
  • PTT八卦语料
  • 青云语料
  • 电视剧对白语料
  • 贴吧论坛回帖语料
  • 微博语料
  • 小黄鸡语料

共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

注意

以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

环境

python3

处理过程

将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。

数据来源及说明

语料名称

语料数量

语料来源说明

语料特点

语料样例

是否已分词

chatterbot

560

开源项目

按类型分类,质量较高

Q:你会开心的 A:幸福不是真正的可预测的情绪。

douban(豆瓣多轮)

352W

来自北航和微软的paper, 开源项目

噪音相对较少,原本是多轮(平均7.6轮)

Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · ·

ptt(PTT八卦语料)

40W

开源项目,中国台湾PTT论坛八卦版

繁体,语料较生活化,有噪音

Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧

qingyun(青云语料)

10W

某聊天机器人交流群

相对不错,生活化

Q:看来你很爱钱 A:噢是吗?那么你也差不多了

subtitle(电视剧对白语料)

274W

开源项目,来自爬取的电影和美剧的字幕

有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)

Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了

tieba(贴吧论坛回帖语料)

232W

偶然找到的

多轮,有噪音

Q:前排,鲁迷们都起床了吧 A:标题说助攻,但是看了那球,真是活生生的讽刺了

weibo(微博语料)

443W

来自华为的paper

仍有一些噪音

Q:北京的小纯洁们,周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛,看着小纯洁撸么。

xiaohuangji(小黄鸡语料)

45W

原人人网项目语料

有一些不雅对话,少量噪音

Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

语料名称

语料原始URL(即出处,尊重原始版权)

chatterbot

https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese

douban(豆瓣多轮)

https://github.com/MarkWuNLP/MultiTurnResponseSelection

ptt(PTT八卦语料)

https://github.com/zake7749/Gossiping-Chinese-Corpus

qingyun(青云语料)

subtitle(电视剧对白语料)

https://github.com/fateleak/dgk_lost_conv

tieba(贴吧论坛回帖语料)

https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si

weibo(微博语料)

61.93.89.94/Noah_NRM_Data/

xiaohuangji(小黄鸡语料)

https://github.com/candlewill/Dialog_Corpus

使用方法

下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

代码语言:javascript
复制
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

执行命令即可

代码语言:javascript
复制
python main.py

或者

代码语言:javascript
复制
python3 main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

代码语言:javascript
复制
query \t answer
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与python集中营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 转自:https://github.com/codemayq/chaotbot_corpus_Chinese
  • 说明
    • 注意
    • 环境
    • 处理过程
    • 数据来源及说明
    • 使用方法
    • 生成结果
    相关产品与服务
    短信
    腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档