前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获

【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获

作者头像
小爷毛毛_卓寿杰
发布2022-11-02 17:55:07
7270
发布2022-11-02 17:55:07
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

1、简介

  • ​论文地址:https://arxiv.org/pdf/2104.08303.pdf

最近,基于 Transformer 的架构被用于越来越多被应用于Table QA。在本文中,作者提出了两种新颖的方法,证明一种方法可以在不使用任何这些专门的预训练技术的情况下在 Table QA 任务上实现卓越的性能。

  • 第一个模型称为 RCI Interaction ,它利用基于 Transformer 的架构,该架构独立地对行和列进行分类以识别相关单元格。该模型在最近的基准测试中查找单元格值时产生了极高的准确性。
  • 作者还提出的第二种模型,称为 RCI Representation,通过实现现有表的嵌入,为在线 QA 系统提供了优于表的显着效率优势。

在最近的基准上实验证明,所提出的方法可以有效地定位表格上的单元格值(在 WikiSQL 查找问题上高达 ∼98% 的 Hit@1 准确率)。此外,RCI Interaction 模型优于最先进的基于 Transformer 在非常大的表语料库(TAPAS 和 TABERT)上进行预训练的方法,在标准 WikiSQL 基准上实现了 ∼3.4% 和 ∼18.86% 的额外精度提高。

2、模型介绍

2.1 模型结构

RCI使用文本匹配来定位答案所在的行或者列,其中一个文本是Question,另一个文本是行或者列。

  • RCI Interaction:序列化文本会使用[CLS]和[SEP]将问题与行或者列文本进行拼接,然后这个序列对被输入至ALBERT 。最终[CLS] 隐藏层的输出用于后面的线性层和softmax,判断行或者列是否包含答案。
  • RCI Representation:
在这里插入图片描述
在这里插入图片描述

问题的向量表示和列或者行的向量表示会先被分别算出来。然后,这两个向量按如上图所示的方式进行拼接,并使用带有softmax层的全连接层对拼接后的向量进行分类。

2.2 表格序列化

我们了解了模型的结构后,还有个问题没介绍,那就是行和列是怎么序列化为文本的?作者这里采用的方案是:

  • 行:每个单元格的序列化为:单元格的值与该单元格所对应的列标题的拼接,再将该行的每个单元格序列化拼接,构成行的序列化。
  • 列:将该列列表头与该列的各个单元格值进行拼接,构成列的序列化。
在这里插入图片描述
在这里插入图片描述

举个例子,如上所示的表。该表格的第一行被转换为:

代码语言:javascript
复制
Name:Benjamin Contee|Took office:1789|Left office:1791|Party:Anti-Administration|Note/Events:|

该表的第二列被转换为

代码语言:javascript
复制
Took office : 1789 | 1791 | 1792 | 1793 | 1795 |

3. 扩展到聚合问题

虽然 RCI 的重点是解决表格查找问题,但也可以通过添加问题分类器扩展到聚合问题。训练另一个Transformer将“问题-表头”序列对分类为六类之一:lookup, max, min, count, sum 和average。因为表格标题是和,诸如“How many wins do the Cubs have?”之类的问题是相关的。可以由 lookup、count 或者 sum操作得到答案,具体取决于表的结构。

对 RCI 模型的单元级别置信度设置一个阈值,并按预测的问题类型,进行聚合,产生最终答案,即可用于单元格的查找问题,也可以用于聚合成单个数字的问题。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、简介
  • 2、模型介绍
    • 2.1 模型结构
      • 2.2 表格序列化
      • 3. 扩展到聚合问题
      相关产品与服务
      文件存储
      文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档