OL-CC：首个众包形式、人工生成的开源中文对话指令集

文章来源：企鹅号 - 智源社区

数据是训练大模型必不可少的“燃料”，但目前的数据集由不同的机构构建，存储分散，难以整合；高质量数据集的建设成本高昂。当前由于商业竞争等原因，导致数据上形成了各自为战的局面，大家无法将分散的数据整合到一起发挥更大的作用。

2 月底，智源研究院发布了“OpenLabel数据飞轮”计划，旨在打造一个开源数据平台，汇聚多方力量，打破数据壁垒，克服大模型创新过程中的数据难题，推动中国大模型创新进程。

智源现将志愿者的贡献整理成为首个以众包方式、人工生成的开源中文对话指令集：OpenLabel-Chinese Conversations dataset (OL-CC) 。

OL-CC 包含 10k+ “指令-回答”数据对和 1.6k+人工指令数据。指令类型丰富，包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、闲聊对话、逻辑&数学等任务。

根据收集到的 63 份志愿者调研问卷，志愿者男女比例约为 2:1；年龄从“18岁以下”到“40-50岁”均有分布，主要集中在“19-24岁”区间；教育程度方面，硕士及以上学历占 59%。

https://data.baai.ac.cn/details/OL-CC

感谢所有276位志愿者的贡献！

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货