前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递1.20

每日学术速递1.20

作者头像
AiCharm
发布2024-01-22 14:43:54
1430
发布2024-01-22 14:43:54
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Effective pruning of web-scale datasets based on complexity of concept clusters(ICCV2023)

标题:基于概念簇复杂度的网络规模数据集的有效剪枝

作者:Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika Chaudhuri, Ari S. Morcos

文章链接:https://arxiv.org/abs/2401.04578

摘要:

利用大规模网络规模的数据集使机器学习模型获得了前所未有的性能提升,但也对其训练提出了异常的计算要求。为了提高训练和数据效率,我们在这里突破了修剪大规模多模态数据集以训练 CLIP 式模型的极限。当今 ImageNet 上最有效的修剪方法根据数据样本的嵌入将数据样本聚类成单独的概念,并修剪掉最典型的样本。我们将此方法扩展到 LAION 并通过注意到剪枝率应该针对特定概念并适应概念的复杂性来改进它。使用简单直观的复杂性衡量标准,我们能够将培训成本降低到常规培训的四分之一。通过从 LAION 数据集进行过滤,我们发现对较小的高质量数据集进行训练可以带来更高的性能,同时显着降低训练成本。更具体地说,我们能够在 ImageNet 零样本精度上超越 LAION 训练的 OpenCLIP-ViT-B32 模型 1.1p.p。而只使用了 27.7% 的数据和训练计算。尽管训练成本大幅降低,但我们也看到了 ImageNet dist 的改进。轮班、检索任务和 VTAB。在 DataComp Medium 基准测试中,我们在 38 项评估任务中实现了最先进的 ImageNet 零样本精度和具有竞争力的平均零样本精度。

2.Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis

标题:用于加速新颖视图合成的压缩 3D 高斯泼溅

作者:Simon Niedermayr, Josef Stumpfegger, Rüdiger Westermann

文章链接:https://arxiv.org/abs/2401.02436

摘要:

最近,采用优化的 3D 高斯图表示的高保真场景重建已被引入,用于从稀疏图像集进行新颖的视图合成。使此类表示适合低功耗设备上的网络流和渲染等应用程序需要显着减少内存消耗并提高渲染效率。我们提出了一种压缩的 3D 高斯图表示,它利用敏感度感知向量聚类和量化感知训练来压缩方向颜色和高斯参数。学习到的码本具有较低的比特率,并且在现实场景中实现高达 31× 的压缩率,并且视觉质量的下降最小。我们证明,可以通过轻量级 GPU 上的硬件光栅化来高效渲染压缩的 splat 表示,其帧速率比通过优化的 GPU 计算管道报告的帧速率高出 4× 。跨多个数据集的广泛实验证明了所提出方法的稳健性和渲染速度。

3.LEGO:Language Enhanced Multi-modal Grounding Model

标题:乐高:语言增强多模式接地模型

作者:Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang

文章链接:https://arxiv.org/abs/2401.06071

项目代码:https: //github.com/lzw-lzw/LEGO

摘要:

多模态大语言模型在不同模态的各种任务中表现出了令人印象深刻的性能。然而,现有的多模态模型主要强调捕获每种模态内的全局信息,而忽略了跨模态感知局部信息的重要性。因此,这些模型缺乏有效理解输入数据的细粒度细节的能力,限制了它们在需要更细致理解的任务中的性能。为了解决这一限制,迫切需要开发能够跨多种模式进行细粒度理解的模型,从而增强其对广泛任务的适用性。在本文中,我们提出了 LEGO,一种语言增强的多模态基础模型。除了像其他多模态模型一样捕获全局信息之外,我们提出的模型还擅长执行需要详细了解输入中的本地信息的任务。它展示了对图像或视频中特定区域的精确识别和定位。为了实现这一目标,我们设计了多样化的数据集构建流程,从而产生用于模型训练的多模式、多粒度数据集。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档