问答系统是自然语言处理中的热门任务,模型需要回答诸如"蒙娜丽莎在哪个城市?"之类的问题。传统方法使用知识图谱存储结构化世界知识,但需要分别训练语义解析和实体识别模型,成本高昂且维护困难。
知识图谱中,节点代表实体,边代表实体间关系。例如,"蒙娜丽莎|展出于|卢浮宫博物馆"将"蒙娜丽莎"和"卢浮宫博物馆"通过"展出于"关系连接。
传统流程包含两个独立模型:
这种方法需要分别训练和更新每个模型,且都需要耗时昂贵的人工标注。
端到端问答系统通过单一模型直接输入问题输出答案。2020年提出的可微分知识图谱方法将知识图谱表示为张量,查询表示为可微分数学运算,实现完全可微分训练。
在第一篇论文中,我们将实体识别整合到端到端问答模型中。基线模型采用编码器-解码器结构和注意力机制,我们通过添加span检测组件进行扩展:
实体识别组件返回带分数的可能实体,结合推理组件在知识图谱中查找路径得到预测答案。实验显示,虽然性能略低于使用人工标注的基线模型(差异约7%和5%),但证明了在单一端到端模型中联合学习实体识别和多跳推理的可行性。
在第二篇论文中,我们扩展端到端模型以处理包含多个实体的复杂问题。例如"娜塔莉·波特曼在《星球大战》中扮演了谁?"包含两个实体。
先前模型只能从单个实体开始遍历路径,无法处理多实体情况。我们引入交集操作:
实验结果显示,引入交集操作在两个英文问答数据集上分别比基线提升3.7%和8.9%。更重要的是,在处理多实体问题时,交集模型分别超越基线超过14%和19%。
未来工作将致力于:改进实体识别性能以媲美人工标注;整合实体识别与交集操作;学习处理更复杂操作如最大值/最小值和计数等。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。