某机构发布用于复杂多语言问答的数据集
该数据集要求问答模型查找多个事实并执行比较,填补了该领域的一个重要空白。
会议
COLING 2022
相关出版物
Mintaka:一个用于端到端问答的复杂、自然且多语言的数据集
相关代码/数据集
Mintaka:一个用于端到端问答的复杂、自然且多语言的数据集
问答(QA)是机器学习中的一项任务,旨在学习预测问题的答案。例如,给定问题“娜塔莉·波特曼出生在哪里?”,一个问答模型可以利用网络文章、知识图谱中的事实或模型内部存储的知识来预测答案“耶路撒冷”。这是一个简单问题的例子,因为它可以通过单个事实或网络上的单一来源(如娜塔莉·波特曼的维基百科页面)来回答。
并非所有问题都是简单的。例如,问题“《泰坦尼克号》和《黑衣人2》,哪部电影的预算更高?”就是一个复杂问题,因为它需要查找两个不同的事实(《泰坦尼克号》| 预算 | 2亿美元 和 《黑衣人2》| 预算 | 1.4亿美元),然后进行计算来比较数值(2亿美元 > 1.4亿美元)。
虽然许多最先进的问答模型在简单问题上表现良好,但复杂问题仍然是一个悬而未决的难题。原因之一是缺乏相关数据集。大多数现有的问答数据集要么规模大但简单,要么复杂但规模小,要么规模大且复杂但为合成生成,因此不够自然。此外,大多数问答数据集仅支持英语。
为了帮助填补这一空白,我们公开发布了一个新的数据集:Mintaka,并在今年的国际计算语言学会议(COLING)上通过论文对其进行了介绍。Mintaka是一个大规模、复杂、自然且多语言的问答数据集,包含2万个英语收集的问题,并经过专业翻译为八种语言:阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。我们还将Mintaka与Wikidata知识图谱关联起来,将问题文本和答案文本中的实体链接到Wikidata ID。
构建数据集
我们将复杂问题定义为任何需要超出单一事实查找的操作的问题。我们使用众包平台某众包平台构建了Mintaka。首先,我们设计了一个众包任务来引出复杂但自然的问题。我们要求工作者编写具有以下复杂度类型之一的问题-答案对:
问题-答案对限制在八个类别:电影、音乐、体育、书籍、地理、政治、电子游戏和历史。它们以自由文本形式收集,对使用的信息来源没有限制。
接下来,我们创建了一个实体链接任务,向工作者展示上一任务中的问题-答案对,并要求他们识别或验证问题或答案中的实体,并从维基百科条目中提供支持性证据。例如,给定问题“《逃离德黑兰》赢得了多少项奥斯卡奖?”,工作者可以将电影《逃离德黑兰》识别为一个实体,并链接到其Wikidata URL。
以下是Mintaka问题的示例:
结果
为了了解Mintaka在自然性方面与其他问答数据集的比较,我们在众包平台上进行了一项评估,使用了四个对比数据集:KQA Pro、ComplexWebQuestions (CWQ)、DROP 和 ComplexQuestions (CQ)。工作者看到五个问题,每个数据集一个,并要求他们按1(最不自然)到5(最自然)的等级进行排序。平均而言,Mintaka的自然性排名高于其他数据集。这表明Mintaka的问题被认为比自动生成或受段落限制的问题更自然。
我们还评估了八个使用Mintaka训练的基线问答模型。表现最佳的是用于封闭书问答的语言模型T5,其命中率@1达到了38%。基线结果表明Mintaka是一个具有挑战性的数据集,在模型设计和训练流程方面仍有很大的改进空间。
Mintaka通过其大规模、复杂性、自然性以及多语言性,填补了问答数据集领域的一个重要空白。随着Mintaka的发布,我们希望鼓励研究人员继续推动问答模型处理更多语言中的更复杂问题。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。