首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

语料库】中文公开聊天语料

github.com/codemayq/chaotbot_corpus_Chinese python进阶教程 机器学习 深度学习 长按二维码关注 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作...该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。...给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。...数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。...否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

9.3K50

中文NLP福利!大规模中文自然语言处理语料

众所周知,中文NLP领域缺乏高质量的中文语料。...作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。...一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号) 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日) 为什么需要这个项目...中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。...贡献语料/Contribution 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中

6.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

COIG:开源四类中文指令语料

此外,由于COIG翻译语料库是从具有不同任务的英语教学语料库(Wang等人,2022b; Honovich等人,2022;Wang等人,2022a)翻译而来,它比在现有的中文数据集上通过适应提示工程建立的中文教学语料库更加多样化...该文的贡献如下: 据我们所知,这是最早的研究工作之一,专门总结了现有的中文指令微调语料库,并就未来如何构建中文指令微调语料库提出了见解。...我们构建了5个开源的高质量中文指令语料库,包括68k的普通中文指令语料库、62k的中文考试指令语料库、3k的中文人值对齐语料库和13k的中文反事实校正多轮聊天语料库,作为沿着指出的研究方向构建新的中文教学语料库的样本...我们构建了一个人工验证的通用高质量中文指令调优语料库,可直接用于中文LLMs的指令调优,包括商业和非商业的。...我们提供这些新的指令语料库是为了帮助社区对中文LLMs进行指令调整。这些指令语料库也是如何有效建立和扩展新的中文指令语料库的模板工作流程。

82020

大规模中文自然语言处理语料(百科,问答、新闻,翻译)

://loveai.tech 为什么需要这个项目 中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。...在2019年初这个时点上,普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。...4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。...5.翻译语料(translation2019zh) 520万个中英文平行语料( 原始数据1.1G,压缩文件596M) 数据描述 中英文平行语料520万对。每一个对,包含一个英文和对应的中文。...可能的用途: 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料

3.2K20

Nature子刊 | ChineseEEG: 一个基于中文语料刺激的高通道EEG数据集

研究人员意识到,目前主流的语言处理研究和认知神经科学研究多集中在英语等西方语言上,但全球有数亿人使用其他语言,特别是中文。...中文具有独特的语法结构、丰富的字符系统和复杂的语义网络,这使得它在认知处理上可能有着不同于英语的特点。...因此,深入研究中文语言的神经机制不仅有助于全面理解人类语言处理的普遍规律,还能为跨文化、跨语言的认知科学研究提供重要的理论依据和数据支持。...BERT-base-Chinese模型在中文语料库上进行了预训练,将每个汉字视为一个标记进行嵌入。...综上所述,本研究通过构建一个高质量的中文EEG数据集,为语言神经科学研究提供了新的工具和方法,推动了跨语言脑科学研究的进展。

19710

关于聊天机器人,这里有一份中文聊天语料库资源

该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料...共8个公开闲聊常用语料和短信,白鹭时代问答等语料。...给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。...数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。...否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

6.7K72
领券