首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

港大、腾讯ARC Lab推出基于多项选择题借口任务

机器之心发布 作者:香港大学、腾讯ARC Lab 本文提出了一个全新借口任务用于视频文本预训练,叫做多项选择题(MCQ)。...本文提出一个全新带有参数化模块借口任务(pretext task),叫做“多项选择题”(MCQ),通过训练 BridgeFormer 根据视频内容回答文本构成选择题,来实现细粒度视频和文本交互,...该研究提出一个带有参数化模块 BridgeFormer 借口任务叫做多项选择题(MCQ),训练 BridgeFormer 通过求助视频特征,回答由文本特征构成选择题,从而实现细粒度视频和文本交互。...这里该研究使用对比学习来优化多项选择题形式预训练目标,而不是采用传统“masked word prediction”,也就是随机 mask 一句话里一些单词,训练模型预测出被 mask 单词。...总结 本文提出了一个全新借口任务用于视频文本预训练,叫做多项选择题(MCQ)。这一借口任务加强了局部视频和文本特征细粒度关联,并且实现了高效下游检索。

75640

LLMs实际上在假对齐!

从人类角度来看,多项选择题往往更简单,因为正确答案包含在选项中,用排除法可以选择更好一个。...数据集中每个问题都包含一个相应开放式问题和多项选择问题,用于直接比较模型性能差异。能力方面的比较测试是为了证明LLM在预训练阶段已经掌握了回答多项选择题能力。...实验结果 1️⃣能力测试:对于多项选择题,设计了具体提示模板来指导司法专家间接地提出选项。然后,我们利用正则表达式匹配方法从LLM响应中提取选项,并将它们与正确答案进行比较。...开放式问题涉及直接输入到模型中获得相应响应。实验结果如表3所示: 2️⃣安全性测试:类似于能力测试,对于多项选择题,我们使用与之前相同提示模板,以及正则表达式匹配方法。...2️⃣选项构造:为了创建相应多项选择题,将开放式问题直接输入到对齐良好LLM(如GPT-3.5-Tubor)中,获得作为正确选项积极响应。至于负面选项,我们通过越狱LLM来构建它们。

41940
您找到你想要的搜索结果了吗?
是的
没有找到

CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务视频文本检索模型,性能SOTA!

为了实现细粒度视频文本交互,同时保持较高检索效率,作者引入了一种用于视频文本预训练新参数化借口任务,即多项选择题(MCQ),它可以在视频所有特征级别上适当地连接文本。...然后以对比学习形式训练BridgeFormer,借助视频编码器局部特征,从多项选择(一个Batch中删除所有内容短语)中选择正确答案。...03 方法 本文采用“双编码器”结构进行视频文本预训练,实现高效检索,并提出了一种新借口任务——多项选择题(MCQ),带有参数化模块BridgeFormer,增强视频和文本之间细粒度语义关联...Multiple Choice Questions 借口任务MCQ使用参数化模块BridgeFormer执行,该模块将VideoFormer和TextFormer所有级别中间token关联起来,回答多项选择题...3.4.3 BridgeFormer Input BridgeFormerTextFormer中名词性问题或动词性问题token作为查询,VideoFormer中视频token作为键和值,获得具有跨模态注意答案表征

67530

谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类

- MedMCQA数据集包含来自印度医学入学考试(AIIMS/NEET)194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。...- PubMedQA数据集由1,000个专家标记问答对组成,其中任务是在给定一个问题情况下产生一个是/否/可能是多项选择题答案,并将PubMed摘要作为上下文(Q+上下文+A)。...- MMLU包含57个领域试题。团队选择了与医学知识最相关子任务:解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项多项选择题以及答案。...这可能是由于存在许多可能思路推理路径导向特定答案随机选择一条路径可能无法产生最准确结果。 此外,研究人员还探索了使用非医学COT提示方法。...人类评估结果 研究人员从HealthSearchQA中随机选择了100个问题,从LiveQA中随机选择了20个问题,从MedicationQA中随机选择了20个问题作为一个较小答案基准,用于详细的人类评估

36420

机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势

具有MRC技术搜索引擎可以直接自然语言返回用户提出问题正确答案,而不是返回一系列相关web页面。 ? 2....它要求根据所提供上下文从考生中选择正确答案。与完形填空相比,多项选择题答案不局限于上下文中单词或实体,因此答案形式更加灵活,但本次任务要求考生提供答案。 ?...2.4 Free Answering 与完形填空和多项选择题相比,跨度提取任务在允许机器给出更灵活答案方面取得了很大进步,但这还不够,因为在限定语境范围内给出答案仍然是不现实。...多项选择题会为每个问题提供考生答案,这样即使答案不局限在原来语境中,也可以很容易地进行评估。由于语言考试中多项选择题很容易使用,因此构建数据集并不难。...在评估完形填空题和多项选择题时,最常用衡量标准是准确率(Accuracy)。在跨度提取方面,使用精确匹配(EM)和F1-score来衡量模型性能。

1.7K10

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

我们医学知识图谱作为信息源,通过采样三元组,并使用通用大模型语言能力进行对话样本构造。 多轮对话问询能力。...我们真实咨询对话纪录作为信息源,使用大模型进行对话重建,构建过程中要求模型完全对齐对话中医学信息。 对齐人类偏好回复。...为增强模型问答能力,我们选择英文医学领域多项选择题数据集 MedMCQA,使用 GPT-3.5 对多项选择题问题和正确答案进行了优化,生成专业中文医学问答样本约 8000 个。...单项选择题评测总体结果显示在表 2 中。GPT-3.5 展现出明显领先优势。DISC-MedLLM 在小样本设置下取得第二名,在零样本设置中落后于 Baichuan-13B-Chat,排名第三。...,在医学交互方面取得了显著改进,表现出很高可用性,显示出巨大应用潜力。

1.5K20

Redis淘汰策略-架构案例2020(三十六)

隐式调用则强调触发和异步,多个构件会注册到一个模块里,当模块改变时候,构件都会接收到消息从而跟着变化。它扩展性高于管道过滤,低于解释器。 顺序图协作图区别? 顺序图强调流程时间顺序。...该系统主要功能包括代码编辑、语法高亮显示、代码编译、系统调试、代码仓库管理等。...答案: 3)是g 由c知道(1)是 安全性(4)是 i (5)选择f (2)可修改性 (6)是j 二、Web工业设备监测系统 某公司拟开发一款基于Web工业设备监测系统,实现对多种工业设备数据分类采集...请用100字以内文字简要描述该策略失效场景,并给出三种内存淘汰机制。 答案: 当没有定期删除这个key,并且没有很久没有访问这个key,所以导致惰性删除也失效。 1、从数据集随机进行淘汰。...2、从数据集选择最近最少使用进行淘汰 3、对已设置过期时间使用最少数据进行淘汰。 4、对设置过期时间数据将要过期进行淘汰 5、对已设置过期时间数据随机淘汰。

15520

北大 & 字节 提出ConBench:揭示VLM不一致性

对于多项选择题,每个选项(如A、B、C、D)成为正确答案概率分布均为25%。值得注意是,为了确保评估解析器准确,问答题受到更多限制,例如指定字数和答案格式(如分数/缩写/数字)。...层次化核心能力 ConBench包含三个核心能力,按难度递增顺序分别是:观察能力(Sensation)、复杂推理(Reasoning)和专业知识(Knowledge)。...ConScore[D]定义如下:当同一Case三种判别式问题都被正确回答时,模型得到一分,最高分为1000分,百分比(%)形式呈现。...判断题、选择题与限制性问答题 对于判断题,从答案中提取“是”和“否”。如果两者都不存在,则答案将被视为“无”。 解析选择题时,从中提取选项标签(A、B、C、D)。将其作为预测值并与真实答案进行匹配。...自我诊断prompt及其回答构造成新prompt,反馈给LVLM生成更高质量Caption。

10010

AAAI 2020 | 上交大&云从科技提出DCMN+ 模型,破解「阅读理解」难题,获全球领先成绩

继智能系统在围棋、国际象棋、游戏等领域超越人类后,“阅读理解”也成为了机器“苦恼”。 对此,云从科技和上海交大针对RACE多项选择题提出增强DCMN+模型。...DCMN+是年初我们提出DCMN增强模型,针对多项选择型机器阅读理解,大规模预训练模型(如BERT等)作为前端编码器,在多个多项选择型机器阅读理解任务(如卡耐基梅隆大学RACE)上取得了最先进水平...任务描述 本文主要聚焦多项选择型机器阅读理解,它形式类似于英语考试中阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出问题(Question)从选项中选择正确答案(...一个典型多项选择型机器阅读理解例子 模型框架 本文提出DCMN+主要包含三个模块: 1)文章中句子筛选,从文章(Passage)中筛选出与问题相关句子用于推理; 2)答案选项交互,引入选项之间比较信息...接下来Q-A之间匹配方式作为说明:问题及答案选项分别被编码为以及,则Q-A间双向匹配表示可以用以下方式计算: 2.5 目标函数 得到文章,问题,答案选项之间双向匹配表示之后,我们把它们串联起来过一层全连接线性层去预测最后答案

90710

AAAI 2020 | 云从科技&上交大提出 DCMN+ 模型,在多项阅读理解数据集上成绩领先

继智能系统在围棋、国际象棋、游戏等领域超越人类后,「阅读理解」也成为了机器「苦恼」。 在此 AAAI 2020 论文中,云从科技和上海交大针对 RACE 多项选择题提出增强 DCMN+模型。...据介绍,DCMN+是年初论文作者们提出 DCMN 增强模型,针对多项选择型机器阅读理解,大规模预训练模型(如 BERT 等)作为前端编码器,在多个多项选择型机器阅读理解任务(如卡耐基梅隆大学 RACE...1 任务描述 本文主要聚焦多项选择型机器阅读理解,它形式类似于英语考试中阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出问题(Question)从选项中选择正确答案...一个典型多项选择型机器阅读理解例子 2 模型框架 本文提出 DCMN+主要包含三个模块:1)文章中句子筛选,从文章(Passage)中筛选出与问题相关句子用于推理;2)答案选项交互,引入选项之间比较信息...接下来 Q-A 之间匹配方式作为说明:问题及答案选项分别被编码为 H^q 以及 H^a,则 Q-A 间双向匹配表示 M^qa 可以用以下方式计算: ?

41520

​机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势

具有MRC技术搜索引擎可以直接自然语言返回用户提出问题正确答案,而不是返回一系列相关web页面。...它要求根据所提供上下文从考生中选择正确答案。与完形填空相比,多项选择题答案不局限于上下文中单词或实体,因此答案形式更加灵活,但本次任务要求考生提供答案。... 2.4 Free Answering 与完形填空和多项选择题相比...多项选择题会为每个问题提供考生答案,这样即使答案不局限在原来语境中,也可以很容易地进行评估。由于语言考试中多项选择题很容易使用,因此构建数据集并不难。...在评估完形填空题和多项选择题时,最常用衡量标准是准确率(Accuracy)。在跨度提取方面,使用精确匹配(EM)和F1-score来衡量模型性能。

33230

LLM能否依据角色过去预测未来?一篇有趣研究

复旦大学和阿里巴巴最新研究报告显示,大型语言模型(LLMs)正逐渐展现出其在模拟人类决策过程中潜力。但它们真的能够替代人类,在关键时刻做出重要决策吗?...目标是生成多项选择题捕捉人物决策过程复杂性。每个选项都被设计成看起来是合理,而只有一个选择——原始书中所做决策是正确。...Manual Filtering:邀请十名英语为母语大学生过滤所有数据。同时向注释者提供每个数据样本相应摘要和人工分析,使他们能够确定模型创建多项选择题是否具有挑战性和合理。...最终目标是确定与角色在叙事中决定一致正确选择Y。 这个任务可以公式化为 P(Y|X) 。对于评估,直接使用多项选择题QA准确性。...具体来说,通过随机抽取40个角色,一半是角色驱动,一半是情节驱动。使用GPT-4进行实验,结果如图5所示: 在早期阶段,大多数角色决策准确性接近随机(25%),这可能是由于信息不足。

15010

冲上榜单这个神秘模型让AI社区讨论爆了

在前面,我们介绍了支持第一种可能性开发者给出理由。随着事件发酵,更多开发者投入了解密一般行动中,对两个模型进行了更深入测试。...在提供话题所有信息后,向模型提出考题。这是一个选择题(A/B/C),其中第一个问题和最后一个问题相同,但选项顺序和字母(X/Y/Z)被更改。...每次测试包含 4-6 个考题,总共 18 个多项选择题。 根据模型给出正确答案数量来进行排名,首先考虑是在提供了课程信息后答案,其次是在没有提前提供信息情况下盲目回答答案应对平局情况。...详细测试报告如下: miqudev/miqu-1-70b GGUF Q5_K_M,32K 上下文, Mistral 格式:只对 4+4+4+5=17/18 道选择题给出了正确答案。...没有先前信息,只回答问题,给出正确答案:4+3+1+5=13/18。没有按照说明用 "OK" 确认数据输入。

11610

GPT-3最新测试出炉:57项任务表现均低于专家水平,最不擅长STEM

又回到上面列出问题,GPT-3 能否给出正确答案?现在有没有非常全面的测试 GPT-3 研究呢?...多任务测试 研究人员创建了一个大规模多任务测试,由来自不同知识分支多项选择题组成。这项测试涉及人文科学、社会科学、自然科学和其他一些对某些人来说很重要领域。...在测试时,研究人员发现 GPT-3 在性能上存在偏差,并且存在一些实质性知识空白。 下图 6 显示了 57 项任务中 GPT-3 准确率。...例如,初等数学中许多问题都要求对算术应用顺序运算(即括号指数乘除加减优先次序)。 在下图 7a 中,GPT-3 知道代表这种次序缩写 PEMDAS。...例如,GPT-3 一种不常见顺序学习主题。GPT-3 在大学医学(47.4%)和大学数学(35.0%)上准确率优于计算密集型基础数学(29.9%)。

44310

大模型能成为你私人医生么?中文医疗大模型评估基准CMB现已加入OpenCompass

CMB 旨在为中文医学大模型开发者们提供详细且精准反馈,加速模型迭代过程,并推动中文医学领域语言模型进一步发展与应用。...为此,CMB 提出了中文医疗模型评估基准,其中包括了适用于不同临床职业、不同职业阶段多项选择题(CMB-Exam)和基于真实病例复杂临床诊断问题(CMB-Clin)。...结果显示,医师和护士模型准确率随着职业等级提升而降低,但医学技术人员则呈现出相反趋势,其主管技师考试准确率最高。...后者原因可能有两个:一是模型在处理大段输入时遇到困难,二是模型可能需要进一步优化,更好地利用上下文中示例。...研究发现,当解码温度从 0 增加到 1.5 时,模型整体表现有所下滑,这可能是因为较高温度会导致输出随机性(多样性)增加,而在医学领域,社区更偏好准确内容。

89830

CloudMedx AI 在美国医学考试中表现优于人类医生

修改后考试有一些问题,比如案例研究,其中描述了一个病人场景,考生(包括人类和人工智能)被要求运用医学知识和推理来回答多项选择题。...考试没有问简单事实,可能通过关键词搜索得到答案,而是描述了复杂场景。对于人工智能来说,使用这种数据分析并产生洞察力是非常了不起。...考试有100道题,每道题都有多项选择题。例如,一个典型问题可能有这样一种场景:病人描述他症状以及先前病史、药物和实验室结果。...医生和人工智能被要求使用他们医学知识、领域专长和经验来得到正确答案。 该测试将医生分为三组参加考试,得出哪一组在这项研究中表现得更好。初步结果令人意外。他们分数如下: 组1。...但人类+人工智能组91分最高分超过其他两组。在最后一组中,人工智能为每个问题最佳答案提供了建议,医生可以选择接受或拒绝该建议。

69850

批量添加题目功能(正则表达式使用案例)

如上图所示,左边是纯文本输入题目,右边需要解析成一个个对应题目。 右边题目就是一个组件,根据不同类型进行显示,这个组件这里不做谈论。...指定拆分规则 第一步当然是指定规则,不然没法知道什么方式进行解析。 这里为了方便处理,对每个题目类型格式加以限定,每个题目之间也用空行进行分隔。...1、每个题目之间必须空行分割,题干中间不得换行。 2、所有题型必须含有 “答案:”字段,且不能为空。 3、【选择题】最多支持10个选项A,B,C,D,E,F,G,H,I,J,且必须按顺序输入。...4、【选择题】选项号A-H与内容之间必须用 ”、“ 或 ”.“ 分隔开。 5、【选择题答案中不能加空格。 6、【判断题】答案仅支持 “正确”,“错误” 或者 “对”,“错”。...9、【填空题】答案如果多于题目中需要填空个数,多于答案将被忽略。 10、【问答题】答案可以为空。 11、【文件上传题】答案必须为 “[文件]” 。 拆分题目 下一步就是拆分每个题目。

89821

朱松纯团队2019:RAVEN ; and I-RAVEN

) 遵循范例是基于以下条件预测每个多项选择面板分类分数:每行/列内部关系,显示出解决 RPM 测试巨大潜力。...最初,RPM 完整行/列被输入到框架中获得主导规则 。之后,每个多项选择面板都被填充到空白位置完成矩阵,并且框架将为所有候选答案生成规则嵌入 ¯ ,给定当前完成矩阵。...仔细检查 RAVEN 中数据后,我们在八个多项选择面板中发现了意想不到模式。答案集中每个干扰项都是通过随机修改正确答案一个属性来生成(见图 4(a))。...因此,每个属性具有最常见值面板将是正确答案。这意味着只需扫描答案集即可找到正确答案,而无需考虑上下文图像。图 4(a) 右侧还显示了一个示例。...这些上下文盲模型仅使用八个多项选择面板作为输入进行训练,并且如果数据集符合逻辑,则应该随机预测答案

6410
领券