前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准

搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准

作者头像
小爷毛毛_卓寿杰
发布2022-09-30 14:35:24
1.1K0
发布2022-09-30 14:35:24
举报
文章被收录于专栏:Soul Joy HubSoul Joy HubSoul Joy Hub

介绍

论文 BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models 中,作者提出了一种无需训练数据,即可学习(或适应)非对称语义搜索模型的方法。

在非对称语义搜索中,用户提供一个(简短的)查询,如一些关键字或问题。然后我们想要检索提供答案的更长的文本段落。

例如:

query: What is Python? passage to retrieve: Python is an interpreted, high-level and general-purpose programming language. Python’s design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.

方案框架

在这里插入图片描述
在这里插入图片描述

整体框架比较清晰。该方案非常适用于冷启的passage,预训练T5能够生成其query,再利用SBERT进行QQ匹配。

相似问生成(QGenQ )

进一步的,如果我们已有标准Query,参考以上的思路,我们可以生成相似问数据,来进行匹配模型的训练。

于是,我尝试了LCQMC数据集的正样本,来尝试训练了一个mini版的T5

LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。

我们来看下生成相似问的效果:

2008年奥运会是第几届?	2008年奥运会是第几届
2008年奥运会是第几届?	2008年奥运会是第几
2008年奥运会是第几届?	2008年奥运会第几届
2008年奥运会是第几届?	2008年有奥运会会是第几届的
2008年奥运会是第几届?	2008年是为什么奥运会第几届啊
这是什么牌子的香水,卖多少钱?	这是什么牌子香水,多少钱
这是什么牌子的香水,卖多少钱?	这是什么牌子的香水,多少钱
这是什么牌子的香水,卖多少钱?	这是香水喝什么牌子多少
这是什么牌子的香水,卖多少钱?	这是什么牌子香水呢多少钱
这是什么牌子的香水,卖多少钱?	这是什么牌子的香水?多少
责任感是什么	责任感是什
责任感是什么	责任感是什么呀
责任感是什么	什么是责任?感她来叫什
责任感是什么	责任感觉的是什么
责任感是什么	什么是责任
怎么才能让胡子长得慢些?	怎么才能让胡子长得慢
怎么才能让胡子长得慢些?	怎么样才能让胡子长得
怎么才能让胡子长得慢些?	如何让胡子长得慢些
怎么才能让胡子长得慢些?	怎么样才能让胡子长得慢
怎么才能让胡子长得慢些?	怎么让胡子长得慢

看上去效果还过得去~

于是,我又尝试了将模型迁移,尝试垂直领域的BQ Corpus数据集进行相似问的生成。验证下模型的迁移性。

BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。

效果如下:

为什么我无法看到额度	为什么我的无法看到额
为什么我无法看到额度	为什么我无法看到额度提示
为什么我无法看到额度	为什么我看说无法看到额
为什么我无法看到额度	为什么无法看到额度
为什么我无法看到额度	说无法怎么看到额
为什么要输入支付密码来验证	为什么我的支付密码那么验证支付密
为什么要输入支付密码来验证	为什么那么入支付密码自己的密码
为什么要输入支付密码来验证	为什么输入支付密
为什么要输入支付密码来验证	为什么输入支付密码被来开
为什么要输入支付密码来验证	为什么输入支付密码上网店需要按
今天借明天还款可以?	今天的借款还款可以过
今天借明天还款可以?	今天的钱只是在私6天啊
今天借明天还款可以?	今天,借还款,那年天还是不
今天借明天还款可以?	《今天借地明还款的还款的
今天借明天还款可以?	今天都当服还款的还款
今天借明天还要手续费吗	今天借费有手续费吗
今天借明天还要手续费吗	今天网上买今天,求手续费
今天借明天还要手续费吗	今天借款手续费
今天借明天还要手续费吗	今天借费还要手续费
今天借明天还要手续费吗	借手第二季求手续费

这效果就比较差了。。。可能是模型太mini,预训练数据也太少了。但是这个方案还是可以继续实验尝试的~

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 方案框架
  • 相似问生成(QGenQ )
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档