通过众包平台收集超过11,000个多轮开放域对话数据。数据采集基于SocialIQA基准中的情景提示(例如"艾迪森想去墨西哥旅行并联系朋友制定计划"),每个提示由五位标注者构建多轮对话,平均每段对话包含5.7轮交互。
使用ConceptNet知识图谱(包含<实体1,关系,实体2>三元组)对对话进行筛选。仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话,从初始25,000段对话中筛选出11,000段高质量数据。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。