前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递7.6

每日学术速递7.6

作者头像
AiCharm
发布2023-07-26 20:22:34
2080
发布2023-07-26 20:22:34
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.JourneyDB: A Benchmark for Generative Image Understanding

标题:JourneyDB:生成图像理解的基准

作者:Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang

文章链接:https://arxiv.org/abs//2307.00716

项目代码:https://journeydb.github.io/

摘要:

虽然视觉语言模型的最新进展彻底改变了多模态理解,但仍不清楚它们是否具有理解生成图像的能力。与真实数据相比,合成图像在内容和风格上表现出更高程度的多样性,而模型要完全理解这些多样性存在很大的困难。为此,我们提出了一个大规模数据集 JourneyDB,用于生成图像中的多模式视觉理解。我们精心策划的数据集涵盖 400 万张多样化且高质量的生成图像,以及用于生成这些图像的文本提示。我们进一步设计了 4 个基准来量化生成图像理解在内容和风格解释方面的性能。这些基准包括提示反转、风格检索、图像字幕和视觉问答。最后,我们评估了当前最先进的多模态模型应用于 JourneyDB 时的性能,并深入分析了它们在生成内容理解方面的优势和局限性。我们希望所提出的数据集和基准能够促进生成内容理解领域的研究。该数据集将在此 https URL 上提供。

2.ViNT: A Foundation Model for Visual Navigation

标题:ViNT:视觉导航的基础模型

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2306.14846

项目代码:https://visualnav-transformer.github.io/

摘要:

通用预训练模型(“基础模型”)使从业者能够为单个机器学习问题生成通用的解决方案,其数据集比从头开始学习所需的数据集要小得多。此类模型通常在监督较弱的大型且多样化的数据集上进行训练,消耗的训练数据比任何单个下游应用程序可用的训练数据多得多。在本文中,我们描述了视觉导航变压器(ViNT),这是一个基础模型,旨在将通用预训练模型的成功带入基于视觉的机器人导航。ViNT 经过训练,可实现一般目标,可与任何导航数据集一起使用,并采用灵活的基于 Transformer 的架构来学习导航可供性,并能够有效适应各种下游导航任务。ViNT 在许多现有的导航数据集上进行了训练,包括来自各种不同机器人平台的数百小时的机器人导航,并表现出正迁移,优于在单一数据集上训练的专业模型。ViNT 可以通过基于扩散的子目标建议进行增强,以探索新的环境,并且在配备远程启发式技术时可以解决公里级的导航问题。ViNT 还可以采用受提示调整启发的技术来适应新的任务规范,其中目标编码器被嵌入到相同目标标记空间中的另一种任务模态(例如 GPS 航路点或路由命令)的编码所取代。这种灵活性和适应各种下游问题领域的能力使 ViNT 成为移动机器人的有效基础模型。有关视频、代码和模型检查点,请参阅此 https URL 的项目页面。

3.Meta-training with Demonstration Retrieval for Efficient Few-shot Learning(ACL 2023)

标题:具有演示检索的元训练可实现高效的小样本学习

作者:Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz

文章链接:https://arxiv.org/abs//2307.00119

摘要:

大型语言模型在少量 NLP 任务上显示出令人印象深刻的结果。然而,这些模型是内存和计算密集型的。元训练允许人们以领域通用和任务无关的方式利用较小的模型进行几次泛化;然而,仅这些方法会导致模型可能没有足够的参数化或知识来快速适应各种任务。为了克服这个问题,我们提出了带有演示检索的元训练,其中我们使用密集的段落检索器来检索与每个示例语义相似的标记演示,以实现更多样化的监督。通过将外部知识与模型参数分离,我们可以使用元训练来训练参数高效的模型,这些模型可以很好地泛化更多种类的任务。我们从 UnifiedQA 和 CrossFit 构建了一个元训练集,并提出了一个基于 UnifiedQA 任务的演示库。据我们所知,我们的工作是第一个将检索与元训练相结合,使用 DPR 模型检索演示,并同时利用来自多个任务的演示,而不是从目标任务的训练集中随机采样演示。我们的方法在 QA、NLI 和文本分类任务(包括 SQuAD、QNLI 和 TREC)上优于各种目标参数高效和检索增强的小样本方法。我们的方法可以在单个 GPU 上快速进行元训练和微调。

推荐阅读

每日学术速递7.5

2023-07-05

SIGGRAPH2023|DreamFace:一句话生成 3D 数字人

2023-07-05

CVPR 2023 | BundleSDF:对未知物体进行6D追踪和3D重建新SOTA

2023-07-04

每日学术速递7.4

2023-07-04

CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架

2023-07-03

点击卡片,关注「AiCharm」公众号

喜欢的话,请给我个在看吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
    • 推荐阅读
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档