arXiv每日学术速递-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

arXiv每日学术速递

专栏作者

530

文章

399494

阅读量

61

订阅数

国防科大最新 | SceneTracker：在4D时空中追踪万物

自动驾驶测试计算机视频数据

在时间与空间组成的4D时空中，精确、在线地捕捉和分析长时且细粒度的物体运动，对机器人、自动驾驶、元宇宙、具身智能等领域更高水平的场景理解起到至关重要的作用。

公众号-arXiv每日学术速递

2024-05-21

10

智能计算加速搜索，中国天眼FAST寻获球状星团中迄今最长周期脉冲星

搜索算法系统工作数据

我们知道，球状星团是一种受引力束缚，成员由几万颗到数百万颗恒星组成的古老星团，在外观上大多呈球形，但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程，星族合成路径等是当今天文学界的研究热点。

公众号-arXiv每日学术速递

2024-05-11

1160

端到端解决方案 Dr-SAM | 无需额外训练，助力血管造影图像分析与诊断！

数据算法异常图像分析解决方案

下肢和骨盆器官的血液供应在很大程度上依赖于肾下主动脉和骨盆动脉。这些血管的任何狭窄（狭窄）[19]或扩张（动脉瘤）都可能导致严重的健康问题。血管造影是一种使用X射线和对比剂的成像技术，用于精确诊断和治疗这些状况。这种成像技术在识别肾下主动脉和骨盆动脉的狭窄和动脉瘤方面特别有效。随着技术的发展和微创手术的引入，血管造影显著提高了血管疾病患者的治疗效果。随着AI技术的发展，血管造影图像得到了语义分析的机会，更有效地辅助医生进行诊断预测。

公众号-arXiv每日学术速递

2024-05-11

1000

打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !

视频数据性能工作模型

近年来，自动视频理解的研究经历了多次范式转变。随着神经网络的兴起，最初的问题是如何设计一种架构来输入时空信号[49, 68]。鉴于有限的视频训练数据，焦点随后转向了从图像分类预训练借用参数初始化[7]。为了提供视频预训练，一项工作已经在标注视频分类数据集上做出了昂贵的努力[27]。

公众号-arXiv每日学术速递

2024-05-11

1450

瑜伽球上遛「狗」！入选英伟达十大项目之一的Eureka有了新突破

论文配置设计机器人迁移

这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造，并且完全开源。他们提出了 DrEureka（域随机化 Eureka），这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法，可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务，例如四足机器人平衡和在瑜伽球上行走，而无需迭代手动设计。

公众号-arXiv每日学术速递

2024-05-11

930

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

计算机量子计算系统芯片 gpu

比起当前的CPU、GPU、TPU、FPGA等数字处理器，这种全新的AI加速器快了数个数量级，而且更加节能。

公众号-arXiv每日学术速递

2024-04-30

920

别骂了！翻看学术人设，发现我是「学术乌贼」，总给导师抹黑的那种...

数据统计网络论文事件

师兄师姐，个个为我导喜添SCI，不像我，只要是一出去，参加学术会议露怯、论文答辩支支吾吾的.....多少都能给导师抹点黑，因此课题组里大家都连连赞同我的人设「学术乌贼」，鄙人不才

公众号-arXiv每日学术速递

2024-04-30

1290

斯坦福祭出 CU-Mamba | 不仅具有通道感知，更是将双状态空间模型（SSM）框架融入到U-Net

框架模型数据 ssm 架构

图像恢复是数字图像处理中的基本任务，旨在从各种退化（如噪声、模糊和雨迹）损害的图像中重建高质量图像。最近的进展凸显了卷积神经网络（CNNs）[1, 2, 3]和基于Transformer的模型[4, 5, 6, 7]在此领域的有效性。CNN利用层次结构，擅长捕捉图像内的空间层次。Transformer模型最初是为自然语言处理设计的，但已经显示出对视觉理解的积极成果，例如Vision Transformer[8]。Transformer模型采用自注意力机制，特别擅长建模长距离依赖。这两种方法在许多图像恢复任务中均取得了最先进的结果[9, 10, 11]。

公众号-arXiv每日学术速递

2024-04-25

2720

Linux之父讽刺AI炒作：很搞笑，大概我也会被大模型取代

模型硬件 linux 人工智能开发者

几天前，由 Linux 基金会主办的北美开源峰会（Open Source Summit North America）在华盛顿西雅图闭幕。

公众号-arXiv每日学术速递

2024-04-25

880

轻量化之王MobileNetV4 开源 | Top-1 精度 87%，手机推理速度 3.8ms，原地起飞！

模型手机搜索硬件开源

作者的两阶段神经网络架构搜索（NAS）方法，将粗略搜索与细粒度搜索分开，显著提升了搜索效率，并促进了比先前最先进模型显著更大的模型的创建。此外，结合离线蒸馏数据集，减少了NAS奖励测量中的噪声，从而提升了模型质量。

公众号-arXiv每日学术速递

2024-04-25

1.4K0

超越BEVFusion！DifFUSER：扩散模型杀入自动驾驶多任务（BEV分割+检测双SOTA）

网络自动驾驶模型数据算法

目前，随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多，工业界和学术界非常希望一个理想的感知算法模型，可以同时完成如3D目标检测以及基于BEV空间的语义分割在内的多个感知任务。对于一辆能够实现自动驾驶功能的车辆而言，其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器来采集不同模态的数据信息，从而充分利用不同模态数据之间的互补优势，比如三维的点云数据可以为3D目标检测任务提供算法模型必要的几何数据和深度信息；2D的图像数据可以为基于BEV空间的语义分割任务提供至关重要的色彩和语义纹理信息，通过将不同模态数据的有效结果，使得部署在车上的多模态感知算法模型输出更加鲁棒和准确的空间感知结果。

公众号-arXiv每日学术速递

2024-04-25

1860

华为开源 GhostNetV3 | 优化边缘计算，性能显著提升、超越 MobileNet !

优化开源边缘计算华为性能

在移动设备上仅用269MFLOPs和14.46ms的延迟，就达到了79.1%的top-1准确率，大幅超过了其通常训练的对应模型。此外，作者的观察还可以扩展到目标检测场景。关注公众号，私信「获取代码」获取 PyTorch代码和预训练权重。

公众号-arXiv每日学术速递

2024-04-25

3840

GPT-4化身黑客搞破坏，成功率87%！OpenAI要求保密提示词，网友复现ing

黑客 gpt openai 漏洞模型

这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架，研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。

公众号-arXiv每日学术速递

2024-04-25

1310

MambaDFuse 出手就知道有没有 | 模态问题怎么办？特征融合怎么解？速度怎么变快？这就是标杆！

模型设计性能工作架构

图像融合旨在从多个源图像中结合基本的信息表示，以生成高质量、内容丰富的融合图像。根据成像设备或成像设置的不同，图像融合可以分为多种类型，包括多模态图像融合（MMIF）、数字摄影图像融合和遥感图像融合。红外-可见光图像融合（IVF）和医学图像融合（MIF）是MMIF的两个典型任务，它们对来自所有传感器的跨模态特征进行建模和融合。特别是，红外传感器捕捉热辐射数据，突出显示显著目标，而可见光传感器捕捉反射光信息，生成富含纹理细节的数字图像。IVF旨在整合源图像中的互补信息，生成在突出显著目标的同时保留丰富纹理细节的高对比度融合图像。这些融合图像提供了增强的场景表示和视觉感知，有助于后续的实际视觉应用，如多模态显著性检测、目标检测和语义分割。

公众号-arXiv每日学术速递

2024-04-25

2490

CVPR 2024 | 巨幅提升24%！LiDAR4D会是LiDAR重建的答案么？

工作框架数据优化渲染

尽管神经辐射场（NeRFs）在图像新视角合成（NVS）方面取得了成功，但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline，但忽略了激光雷达点云的动态特性和大规模重建问题。有鉴于此，我们提出了LiDAR4D，这是一种用于新的时空LiDAR视图合成的LiDAR-only的可微分框架。考虑到稀疏性和大规模特征，进一步设计了一种结合多平面和网格特征的4D混合表示，以实现从粗到细的有效重建。此外引入了从点云导出的几何约束，以提高时序一致性。对于激光雷达点云的真实重建，我们结合了ray-drop概率的全局优化，以保持cross-region模式。在KITTI-360和NuScenes数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面的优越性。

公众号-arXiv每日学术速递

2024-04-25

2540

CVPR2024 | 堆叠的Transformer模块居然能减少50%的参数？一文带你了解LORS方法的有趣发现

网络性能神经网络模型设计

如今这个AI时代，神经网络模型已经成为了我们生活中不可或缺的一部分。从图像识别到语音助手，从自动驾驶到智能推荐，深度神经网络在各个领域都发挥着重要作用。特别是基于Transformer架构的模型，随着Scaling Low的持续发挥威力，正以前所未有的速度在各个领域开疆拓土。

公众号-arXiv每日学术速递

2024-04-25

1090

精度与速度的双赢，很难拒绝 | SpectralMamba用动态卷积学习动态 Mask ，将 Mamba速度问题卷服！

模型数据性能 mask 函数

高光谱（HS）成像技术的迅速发展显著增强了人类观察现实世界的能力，细节和深度都得到了提升[1]。与传统摄影仅在有限的几个宽光谱带内获取图像不同，高光谱成像系统通过测量每个像素的能量光谱，前所未有的同时实现了空间和光谱信息的捕获。生成的三维（3-D）高光谱数据立方体包含了每个空间分辨率元素的近乎连续的光谱轮廓，从而使得对成像内容的量化、识别和认定的准确性得到提高。得益于航空航天和仪器技术的最新进展[2]，高光谱成像已逐渐成为遥感（RS）不可或缺的工具。在其广泛的应用中，高光谱图像分类在从环境监测、城市规划到军事科学等众多领域引起了广泛关注，展示了其潜在的普遍性和交叉重要性[3, 4]。

公众号-arXiv每日学术速递

2024-04-25

2630

苹果终止电车项目后大裁员，押注家用机器人，这会是Next Big Thing吗？

产品苹果机器人汽车 next

苹果公司的电动汽车项目在今年二月份取消了，他们还决定放弃为 Apple Watch 自主生产下一代屏幕的尝试。这两个项目都因成本超支和上市延迟而受阻。此外，混合现实眼镜还需要多年时间才能成为苹果主要的盈利点。在这样的情况下，苹果面临着巨大的收入压力。

公众号-arXiv每日学术速递

2024-04-11

1180

MinkUNeXt诞生 | UNet结合Transformer，再进行GeM广义均值池化，复杂问题简单化，性能SOTA

数据网络性能架构模型

在许多应用中，移动机器人必须在特定的环境中执行自主导航。在移动过程中，机器人应能够识别或区分环境中的不同区域。这个行为相当于在其当前的传感器观测与存储数据库的一部分之间找到对应关系。这种能力通常被称为地点识别。为了加快这一过程，作者们经常专注于通过不变描述子来描述环境的一些部分。通过这种方式，机器人应该能够通过在数据库中找到与其当前观测相关联的描述子最相似的描述子来识别环境的一部分。地点识别的概念在诸如定位、建图和导航等任务中至关重要。

公众号-arXiv每日学术速递

2024-04-11

1390

量产杀器！P-Mapnet：利用低精地图SDMap先验，建图性能暴力提升近20个点！

性能地图数据网络系统

在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一，现有的算法在远距离范围下的感知表现依然较差。为此，我们提出了P-MapNet，其中的“P”强调我们专注于融合地图先验以提高模型性能。具体来说，我们利用了SDMap和HDMap中的先验信息：一方面，我们从OpenStreetMap中提取了弱对齐的SDMap数据，并将其编码为单独的条件分支输入。尽管改输入与实际HD Map存在弱对齐的问题，我们基于Cross-attention机制的架构能够自适应地关注SDMap骨架，并带来显著的性能提升；另一方面，我们提出了一种用MAE来捕捉HDMap的先验分布的refine模块，该模块有助于让生成的HD Map更符合实际Map的分布，有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的的实验。

公众号-arXiv每日学术速递

2024-04-11

2090

点击加载更多

社区活动

RAG七天入门训练营

鹅厂大牛手把手带你上手实战

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态