深度学习自然语言处理 原创 作者:wkk
今天介绍一篇来自于浙江大学的一项研究,关于基于LLM进行人工智能领域内7个不同学术会议QA数据集的论文。
论文: Reliable Academic Conference Question Answering: A Study Based on Large Language Model 地址: https://arxiv.org/abs/2310.13028 git: https://github.com/zjukg/ConferenceQA ->辅导界的小米带你冲刺ACL2024
计算机科学的快速发展导致学术会议上发表的研究激增,促进了全球学术交流。研究人员在各个阶段不断地寻求有关这些会议的准确、最新信息。因此急需一个智能问答系统来有效地解决研究人员的疑问,并确保了解会议的最新进展。
会议信息通常发布在其官方网站上,以半结构化的方式组织,并包含大量文本。为了满足这一需求,本文为7个不同的学术会议开发了ConferenceQA数据集,其中包含人工注释。首先,采用手动和自动相结合的方法,以半结构化的JSON格式组织学术会议数据。随后,为每个会议注释了近100个问答对。每一对被分为四个不同的维度。为了确保数据的可靠性,手动注释每个答案的来源。
鉴于最近的进展,大型语言模型(LLM)在各种NLP任务中表现出了令人印象深刻的性能。它们在指令微调后的信息寻求问题回答方面表现出了令人印象深刻的能力,因此,提出了基于LLM的会议QA研究。由于LLM的幻觉和过时的知识,采用基于检索的方法来提高LLM的问答能力。提出了一种结构感知检索方法,专门设计用于在检索过程中利用固有的结构信息。Conference QA数据集的实证验证证明了该方法的有效性。
由于计算机科学的研究成果在学术会议上发表,这为世界各地的研究人员通过参加会议进行面对面交流提供了巨大的机会。在这些学术会议之前、期间和之后,研究人员不断寻求有关这些事件各个方面的准确、最新情报。特定领域数据的极端激增,迫切需要一种复杂、精确的方法来获取这些信息,从而确保充分参与并全面了解最先进的进步。
鉴于LLMs优秀的推理能力,本文基于会议信息建立了一个QA数据集,进行了一项基于LLM的会议QA研究。
数据集的构建是基于手工和自动相结合的方法,这些问题被分为四类:原子提取、原子推理、复杂提取和复杂推理,从而能够详细探索这些问题。
本文的贡献如下:
会议QA数据集的构造主要包括以下三个步骤:如下图所示。
会议QA数据集中的数据来源于官方会议网站,网站中的每个页面都与其他页面存在结构关系。由于格式风格的可变性,使用手动和自动相结合的方法为每次学术会议构建了半结构化数据集。网站主要包括以下三部分:
对于每个会议,使用手动和自动方法的组合生成问答对。原则是确保每个问题与研究人员在现实环境中提出的问题密切相关。还使用手动注释来保证问题的质量和可靠性,以及注释答案及其来源。QA对生成包括:
为了评估模型回答不同难度问题的能力,设计了一个对问答对进行分类的方案。这种分类主要取决于两个不同的方面:生成答案的过程和生成正确答案的条目数量。问题分类主要从两个维度展开。
随着LLM的出现,领域领域中的问答问题得到了广泛的研究。目前的主流方法是基于检索,利用读者的查询𝑞 提取相关内容𝑐 并将检索到的内容和问题连接起来供LLM回答。本文的方法也遵循这种基于检索的范式。然而,会议的数据集是以半结构化格式组织的。因此,首先需要处理JSON数据来组织内容以进行检索。随后,本文提出了一种专门为半结构化数据设计的结构感知方法,该方法有效地集成了数据集中的结构和语义信息。
方法如下图所示
实验是在会议QA数据集中的7个会议数据上进行的。给定一个问题,通过将LLM的答案与该问题的标准答案进行比较来评估LLM的回答。对于每一次会议,都进行了以下实验:直接回答而不检索(Origin),用标准条目回答(gold),使用单词袋检索函数BM25检索条目(BM25),使用密集检索方法检索条目(Entry),以及三种结构感知方法,包括加权求和(WSum)、直接连接(DCon)以及利用条目的描述进行检索(Doe)。实验采用EM和F1值作为衡量指标。
上表显示了本研究中设计的方法在7个会议数据集上的EM和F1结果。从这些结果可以看出:
研究不同权重系数的影响𝜆 在WSum方法中,从四个领域选择了具有代表性的学术会议:web领域的WWW2023、数据库领域的SIGMOD2023、自然语言处理领域的ACL2023和信息检索领域的ICDE2023。然后我们开始𝜆 以0.1的间隔在0到1的范围内,并相应地进行实验。结果如上图所示,表明:
结构感知方法包括在描述构建过程中结合节点周围的结构信息。此信息包括来自同级节点和父路径的详细信息。为了评估结构感知方法的优势,进行了消融实验,包括去除兄弟节点和消除父路径的描述。移除同级节点意味着以自上而下的方式逐层构建描述,只提供父路径的描述,直到获得条目的描述。另一方面,排除父路径的信息需要直接使用来自其兄弟节点的信息来生成条目的描述,从而有助于在一个步骤中产生条目的描述。结果如上图4所示
本文为学术会议开发了一个可靠的数据集,包含了来自7个会议的JSON数据,这些数据来自官方网站,使用了人工-自动的组合方法。
从本文的研究中收集到的见解为那些打算使用该数据集的人提供了有价值的指导:首先,由于学术会议官方网站的组织风格不同,学术会议数据集的具体形式相当多样,导致难度不同。其次,数据集包含了大量的问答对及其来源,根据生成答案的过程和它们所依赖的条目数量,这些问答对可分为四种类型。这些类别可作为评估模型处理JSON数据熟练程度的基准。最后,证实了所提出的结构感知检索方法的有效性,强调了数据集中结构信息的重要性。
本质上,本文将该数据集视为推进学术会议问答领域进一步研究的垫脚石,并促进对模型如何利用不同类型的外部知识库的探索。尽管的Conference QA数据集包括来自七个会议网站和一百多个问答对的所有数据,但其大小仍然有限。这可能会引入结构性偏见,并限制本文研究结果的可推广性。未来,计划通过合并更多的会议和测试更广泛的方法和模型来增强数据集。