FaaF:为RAG系统量身定制的事实召回评估框架

deephub

发布于 2024-04-15 12:27:31

1690

发布于 2024-04-15 12:27:31

文章被收录于专栏：DeepHub IMBA

在RAG系统中实际的事实召回评估可能存在以下问题:

在低质量生成的文本中自动验证真实的、独立的陈述和模拟低质量的检索增强生成(RAG)场景并没有得到太多的关注。

单个生成的文本可能包含多个需要验证的事实，单当前独立验证每个事实的方法可能过于耗时和资源密集。

RAG系统涉及许多组件，例如知识库、检索、提示公式和语言模型，这些都需要大量的调优。因此效率对实际执行至关重要。

在生成文本中精确匹配基础真值文本容易产生假阴性，因为基础真值信息可能存在于生成文本中，但表达方式不同。

当真实信息超过几个单词时，精确匹配的机会就变得太渺茫了。

Facts As A Function

faaf是一个为RAG系统量身定制的事实召回评估框架，它可以用来创建一个测试数据集，并执行自动的事实召回评估。

评估数据是通过真实事实和人工注释来增强的。WikiEval的特点是问题和答案对，答案具有可变的事实质量，可以模拟有缺陷的RAG反应。

FaaF是一种新的事实验证方法，它在所有检查条件下通过提示进行事实验证，并将所需的LM调用和完成令牌数量减少了5倍以上。

构造函数根据一组事实动态创建函数对象。

给定一组基础真实答案，事实是通过LM提取的。然后测试RAG的假设反应(在这种情况下，无根据的答案和糟糕的答案)对提取的事实的召回。

依靠提示来验证事实往往会高估陈述的真实性，尤其是在文本缺乏重要信息的情况下。在处理不完整文本时，这种方法的错误率高达50%。但是将事实作为一个函数呈现给语言模型(LM)，大大提高了验证的准确性和效率。

faaf显示，含有相关或不准确信息的文本比那些缺少或不完整细节的文本更容易产生误报。在真假选项中加入一个不清楚的选项可以提高整体的准确性。此外在验证事实之前要求引用在某些情况下是有帮助的，但如果文本间接支持事实而不提供直接引用，则可能导致假阴性的结果。

最后使用FaaF大大减少了验证所需的LM调用和令牌的数量，使流程在成本和时间方面更加高效。

论文地址：

https://arxiv.org/abs/2403.03888

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-04-05，如有侵权请联系 cloudcommunity@tencent.com 删除

效率

本文分享自 DeepHub IMBA 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度