发布

未来先知

专栏成员
141
文章
30947
阅读量
21
订阅数
新神经网络架构范式ILASH及NAS框架登场,多数据集验证,最高省16倍能耗等 !
人工智能(AI)是一个快速增长的市场,预计到2027年将达到1万亿美元[1]。AI被广泛应用于各种现代应用程序、设备和服务,几乎涵盖了所有领域,包括汽车[2]-[4]、数字制造、医疗健康[7]-[9]以及零售。然而,AI发展中一个可能制约其增长的重大问题在于能源消耗和碳排放方面。在[12]中,研究行人对各类常见大型AI模型的训练过程进行了生命周期评估。结果显示,这一过程可释放超过62.6万磅二氧化碳当量,相当于一辆普通美国汽车在其整个生命周期内的累计排放量(包括生产制造)的近五倍。能源消耗和碳排放的主要来源有两个:
未来先知
2025-03-03
540
揭秘LLM推理短板!新基准聚焦多步推理,多任务实验评估能力局限 !
推理是智能的基本组成部分,涉及复杂的流程,其中知识和逻辑推理的运用交织在一起。作者将推理定义为通过多次推理步骤逐步达成特定目标,以从现有信息中推导出新的知识(Yu等人,2024年);它始于设定目标,该目标可以由自己启动或明确提供,正如解决问题时常发生的那样;然后,一系列推理重复进行,直到实现目标,处理诸如常识或特定领域的信息等显性和隐性知识。
未来先知
2025-02-26
860
多视角行人检测遇不同摄像系统性能滑坡,无监督领域自适应法实现无缝部署 !
多视图检测旨在从由多个摄像头同时拍摄的一组图像中检测物体,每个摄像头提供了同一场景的不同视角。利用多个视图可以提高对遮挡的鲁棒性,并有助于推理物体的三维属性,这在单一摄像头的情况下可能会更具挑战性。在本文中,作者专注于多视图行人检测,目标是从多个固定摄像头拍摄的图像中生成鸟瞰图(BEV)中的占用地图。这一任务在监控[12]、机器人技术[8]、体育分析[35]以及自主移动机器人控制[44]等应用中具有重要意义。
未来先知
2025-02-25
1060
先验扩散: 在单眼深度估计的扩散模型中利用语言先验 !
本文探讨了利用文本到图像扩散模型学习的语言先验知识解决单目深度估计中的歧义和视觉干扰的潜力。特别是,传统的单目深度估计由于缺乏立体或多视角深度线索而具有固有的歧义,并且由于视觉缺乏鲁棒性而具有噪声。
未来先知
2025-02-25
740
PriorDiffusion利用文本到图像扩散模型语言先验,破解单目深度估计歧义,零样本性能优且收敛快 !
作者提出了PriorDiffusion,将人类提供的场景语言描述作为先验知识,引导深度图预测。在文本到图像预训练过程中,扩散模型学习生成与提供语言描述相符的多样化场景。为了实现这一目标,扩散模型必须理解每个目标的尺寸和形状、空间关系以及语言输入中描述的场景大小,以生成准确地表示输入文本在各种视图和场景布局下的图像。因此,在深度估计中,由人类生成的描述允许模型利用输入文本中嵌入的几何先验知识更有效地感知3D场景。在作者的PriorDiffusion中,在去噪过程中,模型使用图像和语言输入来预测要移除的噪声。最终,高斯噪声逐步细化为与输入图像和语言描述都相符的深度图。由于在训练和推理图像中获取足够的人类提供文本描述具有挑战性,作者利用视觉语言模型(例如LLaVA[11])为每张图像生成描述,模拟人类标注。
未来先知
2025-02-21
910
OminiControl: 扩散变换器(Diffusion Transformer)的最小通用控制 !
扩散模型[9, 25, 28]在视觉生成领域实现了革命性的变革,展示了在图像质量和多样性方面显著优于传统方法如生成对抗网络(GANs)[6]的卓越能力。尽管这些模型在生成高度逼真的图像方面表现出色,但仍然存在一个关键挑战:实现对生成过程的精准和灵活控制,以满足多样化和复杂化的用户需求。
未来先知
2025-02-20
970
超分辨率新突破!HAAT混合注意力聚合Transformer,跨通道建模性能飙升登顶SOTA !
单图像超分辨率(SISR)旨在从低分辨率图像中重构高质量图像。随着其广泛应用,高效超分辨率算法的研发成为计算机视觉领域的一个关键研究领域。最近的研究将自注意力机制集成到计算机视觉挑战中 [1, 2]。
未来先知
2025-02-20
1690
北邮携手浪潮提出 MamKPD: 用于实时关键点检测的简单Mamba基线 !
实时2D关键点检测要求模型能够在低延迟的情况下定位实例中的感兴趣点,其在多个领域具有广泛的应用前景,因为这种检测可以为下游任务(如虚拟现实[7]、动作评估[6]和人机交互[61])提供纯动作信息。尽管在2D关键点检测方面取得了突破性进展,例如基于CNN的方法和基于Transformer的关键点检测框架,但这些方法通常受限于网络规模,通常需要昂贵的计算资源。
未来先知
2025-02-19
1360
BEExformer:解决大语言模型部署难题的创新架构 !
在本文中,作者提出了一种首创的文本推理架构,该架构包含多个具有选择性学习能力的二值化Transformer块,并且这些块之间交替排列有决策块,适用于EE。二值化技术涉及一种直观的二值化感知训练(BAT)机制,利用实值潜在权重进行梯度更新。
未来先知
2025-02-19
740
伦敦大学提出 SAMa: 材料感知三维选择和分割 !
了解作者周围的材料是一项极其常见的任务,但对于机器视觉方法来说仍然具有挑战性。在本文中,作者专注于3D物体的材料选择任务。
未来先知
2025-02-19
950
PiLaMIM: 融合像素和潜在掩码图像建模以获取更丰富视觉表达 !
随着科技的飞速发展,人工智能(AI)已经成为一个备受关注的研究领域。近年来,深度学习在图像识别、自然语言处理和自动驾驶等领域取得了显著的成果。然而,尽管这些进展令人鼓舞,但AI的可靠性和安全性仍然是亟待解决的问题。本论文旨在探讨深度学习模型在复杂环境下的鲁棒性和安全性问题,并提出相应的解决方案。论文结构如下:首先,对深度学习的基本原理和相关技术进行综述;其次,分析当前深度学习模型在鲁棒性和安全性方面存在的问题;然后,提出一种基于对抗训练的鲁棒性增强方法;最后,通过实验验证所提方法的有效性。
未来先知
2025-02-12
1030
创新之举:不丢 Token,大语言模型效率提升 35% !
大语言模型(LLM),如GPT和LLaMA系列,随着上下文窗口大小的增加,在处理复杂长文本任务方面的能力得到了提升,但这也导致了推理效率的降低,特别是在内存和计算复杂性方面的成本。现有的方法,包括选择性地保留Token和基于窗口的注意力机制,虽然提高了效率,但也存在舍弃未来文本生成所需的重要Token的风险。
未来先知
2025-02-12
1170
视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !
近年来,一些目标检测模型能够在不同的数据集上捕捉到稳健、具有代表性的高级语义特征,从而实现了对物体的高精度定位和分类。这些架构包含了基于学习的视觉特征编码器,这对于感知目标检测至关重要,即识别和解释视觉信息以识别物体的过程。Transformer架构是这些模型中的佼佼者,在多个目标检测基准测试中取得了最先进的结果。Transformer编码器在目标检测中取得成功的其中一个原因是它们能够通过注意力机制来建模视觉元素之间的长距离依赖关系。这种能力使它们非常适合视觉检测任务,在这些任务中,理解不同尺度范围内的空间关系是至关重要的。
未来先知
2025-02-08
1240
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
随着人工智能技术的飞速发展,其在各个领域的应用日益广泛。本文旨在探讨人工智能技术在当前的研究进展、应用前景以及所面临的挑战。通过对现有文献的梳理和分析,本文将全面展示人工智能领域的最新研究成果和发展趋势。
未来先知
2025-02-07
990
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
近年来,脑肿瘤分割模型在诊断中发挥了重要作用。然而,它们面临着MRI复杂性和多变性的挑战,包括不规则形状和边界模糊,导致噪声、误分类和不完整的分割,从而限制了其准确性。
未来先知
2025-01-20
1790
少即是多:传递学习中级任务的参数高效选择,ESMs 轻量级神经网络,大幅提升 NLP 效率 !
当前在NLP中的监督学习默认方法是直接使用目标任务标签数据微调一个预训练的 Transformer 。
未来先知
2025-01-17
970
新加坡国立大学提出 OminiControl: 扩散变换器 (Diffusion Transformer) 的最小通用控制 !
扩散模型[9, 25, 28]在视觉生成领域实现了革命性的变革,展示了在图像质量和多样性方面显著优于传统方法如生成对抗网络(GANs)[6]的卓越能力。尽管这些模型在生成高度逼真的图像方面表现出色,但仍然存在一个关键挑战:实现对生成过程的精准和灵活控制,以满足多样化和复杂化的用户需求。
未来先知
2025-01-16
1750
超越 Transformer局限,优化思维链Prompt以提升大型语言模型的推理能力 !
大型语言模型(LLMs)的出现标志着自然语言处理和人工智能进入了一个新时代。这些模型在各种领域表现出惊人的能力,在知识检索和表达(张等人,2024年)等任务上实现了接近人类的性能。然而,关于它们的推理能力的担忧已经出现。这些任务范围从基本的操作如计数、排序和乘法,到更复杂的挑战如数学问题求解、算法设计和编程。以前的研究已经探讨了导致这些推理缺陷的各种因素,包括训练优化, Token 化方法,和数据集选择(杨等人,2024年)。在这些因素中,模型的结构在确定其推理能力方面起着关键作用。大多数主流LLM的核心架构——Transformer(有限精度)——与计算深度(Li等人,2024年)有关固有的限制。具体而言,Transformer中的注意力机制只能执行固定数量的连续计算步骤,导致_恒深度_建模。因此,仅依赖Transformer的_内部推理_,模型的可计算性受到限制,只能解决TC(Li等人,2024年;Feng等人,2024年)的复杂度和长度有限的问题(图1.c-d)。
未来先知
2025-01-15
860
Google/UC/Michigam University 联合提出 MegaSaM:融合多技术优势,重塑相机跟踪与深度估计 !
从一组图像中提取相机参数和场景几何结构是计算机视觉中的一个基本问题,通常被称为运动恢复结构(SfM)或同时定位与建图(SLAM)。尽管几十年的研究已经产生了适用于静止场景且具有大 Baseline 相机的成熟算法,但在处理在非受控环境中拍摄的手持相机捕捉的随意单目视频时,这些方法往往会失效[26, 78]。此类视频通常表现出有限的摄像机运动视差(例如,几乎静止或旋转相机),并且焦距范围广泛,并且常包含移动物体和场景动态变化。为了应对这些挑战,最近的研究主要集中在两种主要策略上:通过微调单目深度网络优化相机和场景几何结构,或者重构辐射场;或将来自单目视频的中间估计值(如深度、流场、长期轨迹和运动分割)结合到全局优化框架中。然而,当应用于包含长时间段、任意相机路径或复杂场景动态的不受约束视频时,这些方法往往是计算成本高昂或不够稳健的。
未来先知
2025-01-14
1000
CVPR2024 预测世界模型挑战赛亚军方案,实现高效点云预测 !
预测世界模型旨在利用过去的观测预测未来的状态,在实现端到端驾驶系统中起着关键作用。在CVPR 2024预测世界模型挑战赛上,参与者需要使用过去的图像输入预测未来帧的点云。这一挑战主要面临两个主要困难:第一个是如何在大量数据上有效地训练。考虑到 OpenScene 数据集[2]包含600万个帧,设计的模型必须高效。第二个挑战是如何通过视觉输入预测出忠实于原始的点云。为了解决这些问题,作者设计了一个新颖的解决方案,超越了基准模型。关于问题I,作者发现官方的基准模型(即ViDAR[13])需要非常长的训练时间,因为它使用所有历史帧以自回归方式预测所有未来帧。
未来先知
2025-01-13
960
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档