首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OL-CC:首个众包形式、人工生成的开源中文对话指令集

数据是训练大模型必不可少的“燃料”,但目前的数据集由不同的机构构建,存储分散,难以整合;高质量数据集的建设成本高昂。当前由于商业竞争等原因,导致数据上形成了各自为战的局面,大家无法将分散的数据整合到一起发挥更大的作用。

2 月底,智源研究院发布了“OpenLabel数据飞轮”计划,旨在打造一个开源数据平台,汇聚多方力量,打破数据壁垒,克服大模型创新过程中的数据难题,推动中国大模型创新进程。

智源现将志愿者的贡献整理成为首个以众包方式、人工生成的开源中文对话指令集:OpenLabel-Chinese Conversations dataset (OL-CC) 。

OL-CC 包含 10k+ “指令-回答”数据对和 1.6k+人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。

根据收集到的 63 份志愿者调研问卷,志愿者男女比例约为 2:1;年龄从“18岁以下”到“40-50岁”均有分布,主要集中在“19-24岁”区间;教育程度方面,硕士及以上学历占 59%。

https://data.baai.ac.cn/details/OL-CC

感谢所有276位志愿者的贡献!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230607A0A3A400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券