首页
学习
活动
专区
工具
TVP
发布

arXiv每日学术速递

专栏作者
523
文章
386485
阅读量
61
订阅数
斯坦福祭出 CU-Mamba | 不仅具有通道感知,更是将双状态空间模型(SSM)框架融入到U-Net
图像恢复是数字图像处理中的基本任务,旨在从各种退化(如噪声、模糊和雨迹)损害的图像中重建高质量图像。最近的进展凸显了卷积神经网络(CNNs)[1, 2, 3]和基于Transformer的模型[4, 5, 6, 7]在此领域的有效性。CNN利用层次结构,擅长捕捉图像内的空间层次。Transformer模型最初是为自然语言处理设计的,但已经显示出对视觉理解的积极成果,例如Vision Transformer[8]。Transformer模型采用自注意力机制,特别擅长建模长距离依赖。这两种方法在许多图像恢复任务中均取得了最先进的结果[9, 10, 11]。
公众号-arXiv每日学术速递
2024-04-25
30
Linux之父讽刺AI炒作:很搞笑,大概我也会被大模型取代
几天前,由 Linux 基金会主办的北美开源峰会(Open Source Summit North America)在华盛顿西雅图闭幕。
公众号-arXiv每日学术速递
2024-04-25
10
轻量化之王MobileNetV4 开源 | Top-1 精度 87%,手机推理速度 3.8ms,原地起飞!
作者的两阶段神经网络架构搜索(NAS)方法,将粗略搜索与细粒度搜索分开,显著提升了搜索效率,并促进了比先前最先进模型显著更大的模型的创建。此外,结合离线蒸馏数据集,减少了NAS奖励测量中的噪声,从而提升了模型质量。
公众号-arXiv每日学术速递
2024-04-25
30
超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)
目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成如3D目标检测以及基于BEV空间的语义分割在内的多个感知任务。对于一辆能够实现自动驾驶功能的车辆而言,其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器来采集不同模态的数据信息,从而充分利用不同模态数据之间的互补优势,比如三维的点云数据可以为3D目标检测任务提供算法模型必要的几何数据和深度信息;2D的图像数据可以为基于BEV空间的语义分割任务提供至关重要的色彩和语义纹理信息,通过将不同模态数据的有效结果,使得部署在车上的多模态感知算法模型输出更加鲁棒和准确的空间感知结果。
公众号-arXiv每日学术速递
2024-04-25
70
华为开源 GhostNetV3 | 优化边缘计算,性能显著提升、超越 MobileNet !
在移动设备上仅用269MFLOPs和14.46ms的延迟,就达到了79.1%的top-1准确率,大幅超过了其通常训练的对应模型。此外,作者的观察还可以扩展到目标检测场景。 关注公众号,私信「获取代码」获取 PyTorch代码和预训练权重。
公众号-arXiv每日学术速递
2024-04-25
50
GPT-4化身黑客搞破坏,成功率87%!OpenAI要求保密提示词,网友复现ing
这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。
公众号-arXiv每日学术速递
2024-04-25
20
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
图像融合旨在从多个源图像中结合基本的信息表示,以生成高质量、内容丰富的融合图像。根据成像设备或成像设置的不同,图像融合可以分为多种类型,包括多模态图像融合(MMIF)、数字摄影图像融合和遥感图像融合。红外-可见光图像融合(IVF)和医学图像融合(MIF)是MMIF的两个典型任务,它们对来自所有传感器的跨模态特征进行建模和融合。特别是,红外传感器捕捉热辐射数据,突出显示显著目标,而可见光传感器捕捉反射光信息,生成富含纹理细节的数字图像。IVF旨在整合源图像中的互补信息,生成在突出显著目标的同时保留丰富纹理细节的高对比度融合图像。这些融合图像提供了增强的场景表示和视觉感知,有助于后续的实际视觉应用,如多模态显著性检测、目标检测和语义分割。
公众号-arXiv每日学术速递
2024-04-25
50
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达点云的动态特性和大规模重建问题。有鉴于此,我们提出了LiDAR4D,这是一种用于新的时空LiDAR视图合成的LiDAR-only的可微分框架。考虑到稀疏性和大规模特征,进一步设计了一种结合多平面和网格特征的4D混合表示,以实现从粗到细的有效重建。此外引入了从点云导出的几何约束,以提高时序一致性。对于激光雷达点云的真实重建,我们结合了ray-drop概率的全局优化,以保持cross-region模式。在KITTI-360和NuScenes数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面的优越性。
公众号-arXiv每日学术速递
2024-04-25
30
CVPR2024 | 堆叠的Transformer模块居然能减少50%的参数?一文带你了解LORS方法的有趣发现
如今这个AI时代,神经网络模型已经成为了我们生活中不可或缺的一部分。从图像识别到语音助手,从自动驾驶到智能推荐,深度神经网络在各个领域都发挥着重要作用。特别是基于Transformer架构的模型,随着Scaling Low的持续发挥威力,正以前所未有的速度在各个领域开疆拓土。
公众号-arXiv每日学术速递
2024-04-25
30
精度与速度的双赢,很难拒绝 | SpectralMamba用动态卷积学习动态 Mask ,将 Mamba速度问题卷服!
高光谱(HS)成像技术的迅速发展显著增强了人类观察现实世界的能力,细节和深度都得到了提升[1]。与传统摄影仅在有限的几个宽光谱带内获取图像不同,高光谱成像系统通过测量每个像素的能量光谱,前所未有的同时实现了空间和光谱信息的捕获。生成的三维(3-D)高光谱数据立方体包含了每个空间分辨率元素的近乎连续的光谱轮廓,从而使得对成像内容的量化、识别和认定的准确性得到提高。得益于航空航天和仪器技术的最新进展[2],高光谱成像已逐渐成为遥感(RS)不可或缺的工具。在其广泛的应用中,高光谱图像分类在从环境监测、城市规划到军事科学等众多领域引起了广泛关注,展示了其潜在的普遍性和交叉重要性[3, 4]。
公众号-arXiv每日学术速递
2024-04-25
80
苹果终止电车项目后大裁员,押注家用机器人,这会是Next Big Thing吗?
苹果公司的电动汽车项目在今年二月份取消了,他们还决定放弃为 Apple Watch 自主生产下一代屏幕的尝试。这两个项目都因成本超支和上市延迟而受阻。此外,混合现实眼镜还需要多年时间才能成为苹果主要的盈利点。在这样的情况下,苹果面临着巨大的收入压力。
公众号-arXiv每日学术速递
2024-04-11
1100
MinkUNeXt诞生 | UNet结合Transformer,再进行GeM广义均值池化,复杂问题简单化,性能SOTA
在许多应用中,移动机器人必须在特定的环境中执行自主导航。在移动过程中,机器人应能够识别或区分环境中的不同区域。这个行为相当于在其当前的传感器观测与存储数据库的一部分之间找到对应关系。这种能力通常被称为地点识别。为了加快这一过程,作者们经常专注于通过不变描述子来描述环境的一些部分。通过这种方式,机器人应该能够通过在数据库中找到与其当前观测相关联的描述子最相似的描述子来识别环境的一部分。地点识别的概念在诸如定位、建图和导航等任务中至关重要。
公众号-arXiv每日学术速递
2024-04-11
1030
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以提高模型性能。具体来说,我们利用了SDMap和HDMap中的先验信息:一方面,我们从OpenStreetMap中提取了弱对齐的SDMap数据,并将其编码为单独的条件分支输入。尽管改输入与实际HD Map存在弱对齐的问题,我们基于Cross-attention机制的架构能够自适应地关注SDMap骨架,并带来显著的性能提升;另一方面,我们提出了一种用MAE来捕捉HDMap的先验分布的refine模块,该模块有助于让生成的HD Map更符合实际Map的分布,有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的的实验。
公众号-arXiv每日学术速递
2024-04-11
1490
211高校教授被质疑用 AI 写 SCI,还成功发表在影响因子6.2期刊上
本文募格学术撰写。参考资料:潇湘晨报记者 孙庆云、学术会议资讯、募格学术此前报道等。
公众号-arXiv每日学术速递
2024-03-25
1070
Science调查:家里太穷,读博更容易迷茫!
在知乎上有一个非常热门的提问:“为什么有的研究生导师喜欢问学生家境?是想了解什么?”
公众号-arXiv每日学术速递
2024-02-05
980
全球代码质量骤降,罪魁祸首竟是AI!1.53亿行代码深度分析报告出炉
最近,GitClear发布的一项调查报告显示,用AI写代码,会让代码的质量和可维护性不断下降。
公众号-arXiv每日学术速递
2024-02-05
1250
Aim新大型视觉模型预训练 | 直接阐明了视觉特征的性能与模型容量和数据量都有关
作者通过预先训练一个70亿参数的Aim模型在20亿图像上的结果来解释这些发现,该模型在ImageNet-1k上的性能达到84.0%,且Backbone网络保持冻结。 有趣的是,即使在这个规模上,作者并未观察到性能出现饱和的迹象,这表明Aim可能代表了一种新的大型视觉模型训练的前沿。Aim的预训练类似于LLMs的预训练,不需要任何针对图像的特定策略来在规模上稳定训练。
公众号-arXiv每日学术速递
2024-01-23
1360
可体外杀死肿瘤细胞!北航团队《Small》发布铁磁流体机器人,用于窗口肿瘤光热治疗
得益于优异变形能力、可控性和驱动方式灵活性,可以在外部施加的磁场影响下实现精确形状改变的微型磁性软体机器人近年来已被开发用于诊断和治疗各种疾病。
公众号-arXiv每日学术速递
2024-01-23
1780
颠覆认知:1升瓶装水,竟有24万个塑料颗粒
已有研究证实,从一次性纸杯、塑料奶瓶,到人类母乳、人类胎盘,再到北极、珠穆朗玛峰,对人体有害的微塑料已经无处不在。
公众号-arXiv每日学术速递
2024-01-12
1000
北京大学 | 联合篡改定位和版权保护的多功能图像水印
本篇文章分享论文EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection ,联合篡改定位和版权保护的多功能图像水印研究。
公众号-arXiv每日学术速递
2023-12-28
1310
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档