首页
学习
活动
专区
工具
TVP
发布

AIGC 先锋科技

专栏成员
82
文章
9922
阅读量
10
订阅数
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024-07-11
1110
告别单一视角:DA4LG在多视图设置下的惊艳表现 !
视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如,代理可以根据来自大型语言模型的计划器提供的一系列原始指令,包括对目标目标的详细描述,来制作一杯咖啡。在这一过程中,视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此,与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展,尤其是3D视觉语言定位。为了解决这个问题,现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验,这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中,作者从领域适应的角度对语言定位任务进行了探索,受到了大型语言模型参数高效调整的领域适应的启发。
AIGC 先锋科技
2024-07-10
920
定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !
图1:仅给出一个新颖主题(例如,一只名叫的狗)的几张图片,Yo’LLaVA就能学会围绕该主题促进文本/视觉对话。
AIGC 先锋科技
2024-07-09
760
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而,大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分,导致了高昂的计算成本,如图1(a)所示。例如,在使用LLaVA-1.6[7]中的高分辨率图像输入时,一个分辨率为672×672的单个图像被划分为四个较小的块,每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示,占据了超过一半的上下文长度。此外,随着输入图像数量的增加,文本的上下文窗口将进一步受限。例如,Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧(7×576=4032个标记),考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响,但这需要昂贵的计算资源(例如,[9]需要超过1000个v4 TPU)以及数据准备和框架开发方面的工程努力。
AIGC 先锋科技
2024-07-08
840
能否仅依靠 LoRA 权重,而不依赖于预训练权重?PC-LoRA 给你答案 !
自从引入了预训练的 Transformer [27]模型以来,它们在自然语言处理(NLP)[1, 6]和计算机视觉(CV)[2, 7, 28]的一系列任务中展现出了卓越的有效性。然而,它们庞大的规模和高计算需求给部署和微调带来了困难。
AIGC 先锋科技
2024-07-08
570
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
多模态大型语言模型(MLLMs)在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型(LLMs)作为基础架构来处理连接的视觉和语言嵌入。以LLaVA [3]作为代表作品,它采用低分辨率(, 等)图像作为输入,并通过MLP投影器将视觉嵌入与文本模态对齐,然后进行指令调整。LLaVA的架构已被后续工作广泛采用,并已应用于各种视觉任务,包括检测、分割和视频理解。
AIGC 先锋科技
2024-07-08
1760
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。
AIGC 先锋科技
2024-07-08
1400
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
随着大型语言模型(LLM)展现出强大的性能,其在解决数学问题方面的应用变得越来越流行(Toshniwal等人,2024年;Wang等人,2023年;Gou等人,2023年;Wang等人,2023a年)。先前的研究表明,人类在没有视觉辅助的情况下解决几何问题时,准确性会显著降低(Chen等人,2021年)。因此,将图像中的视觉信息整合进来对于准确解决这类数学问题至关重要,这需要多模态大型语言模型(MLLM)的视觉感知能力。然而,即使是现在可用的最好的MLLM,Gemini 在几何能力方面仍显著落后于人类表现。因此,研究行人正急于探索提升MLLM几何能力的方法。
AIGC 先锋科技
2024-07-08
1540
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
基于深度学习算法在结肠镜检查过程中检测癌前病变已显示出巨大潜力。近期,一种基础模型,即Segment Anything Model(SAM),被引入用于通用语义分割。一些研究探索了其在息肉分割中的零样本推理或微调[17, 9]潜力。
AIGC 先锋科技
2024-07-08
1050
港科技 & 港中文 解密 CLIP 模型 Backbone 网络大小与虚假特征的关系!
大型视觉语言模型(LVLMs)能够将图像和文本表示对齐,以理解跨越前所未有的真实世界数据规模的图像中的普遍关系,这已经在现代机器学习中呈现出显著的范式转变。许多先进的LVLM作品,如CLIP、ALIGN、BASIC、Flamingo和BLIP,已经在广泛的视觉和多模态任务中展现出卓越的性能,大幅超过了传统的ImageNet训练模型。因此,LVLMs的巨大成功使得社区的焦点从ImageNet基准测试转向了如LAION这样的网络规模的多模态数据集。
AIGC 先锋科技
2024-07-08
930
轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !
在医学成像中,分割是一项关键且经常执行的活动,它允许提取关于感兴趣区域的精确结构信息。手动分割既繁琐又耗时,并且需要经验丰富的专家和医生才能得到准确的结果,因此在医学诊断中构建自动分割框架是一项紧迫的任务。近年来,在包括目标识别、图像分割和图像分类在内的多种计算机视觉任务中,深度学习模型已经超越了传统技术[1, 2, 3]。在医学图像识别中,自动化学习过程的应用越来越受欢迎。在医学图像分析领域,分割模型可以帮助缩短从图像(如脑肿瘤[4, 5, 6]、脑部[7]、心脏磁共振图像中的左心室[8, 9]、皮肤镜下的皮肤病变[10, 11]、细胞显微镜图像[12, 13]、耳镜鼓膜图像[14]、整个心脏[7])中确定受损区域和感兴趣组织的时间,从而在目标勾勒过程中最小化人的主观错误,并帮助医生为患者做出准确的诊断以及制定有效的治疗方案。
AIGC 先锋科技
2024-07-08
1450
利用增强现实与改进 YOLOv5 检测 !
道路运输对于促进城市和国家之间的交流至关重要。此外,道路建设保证了经济发展,这是人们安全旅行的前提,也是一个国家经济发展的不可或缺条件。路面裂缝和损伤是道路上遇到的最常见问题。
AIGC 先锋科技
2024-07-08
1160
打破单模态局限,LoRS在多模态数据提炼上的突破 !
数据集蒸馏能够在保留其基本信息和模型训练性能的同时,合成一个更小且更紧凑的数据集。由于它具有很高的压缩比,在机器学习和大规模模型数据的背景下尤其值得关注。然而,当前的算法在图像领域的应用受到限制,很少有研究涉及到其他单一模态的数据,如文本(Li和Li,2021年)、视频(Wang等人,2023年)或图形数据(Xu等人,2023b年)。随着视觉-语言预训练模型(VLP)和多模态大型语言模型(MLLM)(Li等人,2023年;Liu等人,2023a年)变得占主导地位,作者将注意力转向配对的图像-文本数据。
AIGC 先锋科技
2024-07-08
1150
CM-UNet: 利用Mamba架构的高效全局上下文建模进行图像语义分割
远程遥感图像语义分割涉及将大规模遥感图像中的像素分类到不同的类别中,以增强对遥感(RS)数据的分析和解释。这种大规模的语义分割对于自动驾驶[1]、城市规划[2]、环境保护[3]以及其他许多实际应用都至关重要。
AIGC 先锋科技
2024-07-08
3230
AMSA-UNet | 基于自注意力的多尺度 U-Net 提升图像去模糊性能 !
早期的去模糊方法主要关注非盲去模糊,恢复已知模糊核的图像。Pan等人[1]通过计算模糊图像中暗通道的稀疏性来准确计算模糊核,以恢复清晰图像。然而,这些传统方法在处理空间变化的模糊方面存在困难,而且通常耗时。
AIGC 先锋科技
2024-07-08
2821
清华 & 卡梅隆 & 上交大 打破计算瓶颈,DiTFastAttn 方法优化扩散 Transformer 的图像与视频生成 !
扩散 Transformer (DiT)最近在图像生成和视频生成中越来越受欢迎。然而,DiT的一个主要挑战是它们的计算需求量很大,特别是在生成高分辨率内容时特别明显。一方面,传统的 Transformer 架构,由于其自注意力机制,对输入标记长度L具有的复杂度。这种二次复杂度随着图像和视频分辨率的提高导致计算成本显著增加。如图1所示,随着图像分辨率的增加,注意力计算在推理过程中成为主要的计算瓶颈。具体来说,如果一个的图像被标记为16k个标记(Chen等人,2024),即使在像Nvidia A100这样的高端GPU上,注意力计算也需要几秒钟。另一方面,由于多个去噪步骤和分类器自由引导(CFG)技术,扩散推理过程需要大量的神经网络推理。
AIGC 先锋科技
2024-07-08
860
告别迷路 ,OverlapMamba 提升激光雷达位置识别能力 !
在本文中,作者提出了一种新颖的地点识别方法,利用自动驾驶系统上安装的3D激光雷达(LiDARs)生成原始范围视图(RVs)。对这些RVs进行后续操作,生成用于识别户外驾驶场景不同视角下地点的鲁棒全局描述符。
AIGC 先锋科技
2024-07-08
1060
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如,领域适应[2, 3],半监督[4, 5],弱监督[6, 7],小样本[8, 9]和零样本语义分割。
AIGC 先锋科技
2024-07-08
1450
从 MaxViT 到 ACC-ViT:视觉 Transformer 的紧凑型网络实现参数与性能的双重优化 !
早期的视觉 Transformer (ViT)探索了利用文本 Transformer 的看似无限可扩展性[9]来处理图像的可行性,但由于缺乏足够的感应偏置,且没有进行任何视觉特定的调整[27],因此它们无法达到当时最先进的CNN模型[10]的水平。那些早期的ViT忽视了一个特别重要的方面,即局部模式,这些模式通常携带强烈的上下文信息[17]。这导致了Swin Transformer [18]提出的窗口注意力的发展,这是第一个真正有竞争力的视觉 Transformer 模型。
AIGC 先锋科技
2024-07-08
1060
英特尔实验室引入全局剪辑器,提高基于 Transformer 目标检测模型对软错误的鲁棒性 !
深度神经网络(DNNs)的采用对包括自动驾驶车辆[1],航空,医疗保健[2]和太空探索[3]在内的各个领域产生了重大影响,在这些领域中,高安全性和可靠性至关重要。这推动了专注于安全人工智能的计算机视觉研究社区的蓬勃发展,研究领域包括分布外检测[4],对抗性鲁棒性和模型互操作性[5]。基于DNN的计算机视觉模型处理图像以分类目标并预测它们的边界框。
AIGC 先锋科技
2024-07-08
1430
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档