arXiv每日学术速递-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

arXiv每日学术速递

专栏成员

535

文章

408405

阅读量

61

订阅数

McEval：超大规模多语言代码评测

工作模型数据开源编程语言

为了更加全面的探究大语言模型的代码能力，该工作提出了一个涵盖40种编程语言的大规模多语言多任务代码评测基准（McEval），包含了16000个测试样本。评测结果表明开源模型与GPT-4相比，在多语言的编程能力上仍然存在较大差距，绝大多数开源模型甚至无法超越GPT-3.5。此外测试也表明开源模型中如Codestral，DeepSeek-Coder, CodeQwen以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。

公众号-arXiv每日学术速递

2024-06-13

320

SEVENLLM | 网安事件分析大模型的训练与评测

网络安全模型事件数据网络

网络威胁情报（Cyber Threat Intelligence, CTI）在现代网络安全领域日益重要，为了提高安全人员安全事件分析能力，文章提出一个用于基准测试、引导和改进LLMs（Large Language Models, 大语言模型）在安全事件分析和响应方面的能力的框架（SEVENLLM）。并通过收集网络安全网站的大量网络安全原始文本，构建了高质量双语多任务指令语料库SEVENLLM-Instruct，用于训练具备多任务学习目标（包括28个精心设计的任务）的网络安全LLMs。

公众号-arXiv每日学术速递

2024-05-31

1720

源2.0-M32大模型发布，MoE全新门控网络Attention Router值得关注

模型数据网络效率 router

近期，一个新的MoE大模型“源2.0-M32”发布，它创新性地提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家（Expert）的混合专家模型（MoE），大幅提升了模型算力效率。

公众号-arXiv每日学术速递

2024-05-31

1010

基于 CNN 的深度感知 Dice 损失，在全景分割中的应用，全景质量方面再次提高！

工作函数架构数据网络

全景分割结合了语义分割和实例分割的任务[17]。对于一组“事物”类别，例如“汽车”，它提供了关于各个实例的信息，例如以带有类别标签的边界框和指示实例像素的二值 Mask 的形式。在实例分割中不属于“事物”实例的区域（实例分割中的“背景”）以类似于语义分割的方式分配到所谓的“物品”类别之一。对于这些类别（例如，“墙壁”），不决定实例的信息。

公众号-arXiv每日学术速递

2024-05-31

890

颠覆传统操控！解密美国东北大学机器蛇如何在复杂地形中灵活表现

算法优化机器人科技设计

在人们的印象中，大多数蛇形机器人似乎无法像许多轮式和腿式机器人那样抓取和操作物体。

公众号-arXiv每日学术速递

2024-05-31

1080

国防科大最新 | SceneTracker：在4D时空中追踪万物

自动驾驶测试计算机视频数据

在时间与空间组成的4D时空中，精确、在线地捕捉和分析长时且细粒度的物体运动，对机器人、自动驾驶、元宇宙、具身智能等领域更高水平的场景理解起到至关重要的作用。

公众号-arXiv每日学术速递

2024-05-21

890

智能计算加速搜索，中国天眼FAST寻获球状星团中迄今最长周期脉冲星

搜索算法系统工作数据

我们知道，球状星团是一种受引力束缚，成员由几万颗到数百万颗恒星组成的古老星团，在外观上大多呈球形，但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程，星族合成路径等是当今天文学界的研究热点。

公众号-arXiv每日学术速递

2024-05-11

1280

端到端解决方案 Dr-SAM | 无需额外训练，助力血管造影图像分析与诊断！

数据算法异常图像分析解决方案

下肢和骨盆器官的血液供应在很大程度上依赖于肾下主动脉和骨盆动脉。这些血管的任何狭窄（狭窄）[19]或扩张（动脉瘤）都可能导致严重的健康问题。血管造影是一种使用X射线和对比剂的成像技术，用于精确诊断和治疗这些状况。这种成像技术在识别肾下主动脉和骨盆动脉的狭窄和动脉瘤方面特别有效。随着技术的发展和微创手术的引入，血管造影显著提高了血管疾病患者的治疗效果。随着AI技术的发展，血管造影图像得到了语义分析的机会，更有效地辅助医生进行诊断预测。

公众号-arXiv每日学术速递

2024-05-11

1240

打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !

视频数据性能工作模型

近年来，自动视频理解的研究经历了多次范式转变。随着神经网络的兴起，最初的问题是如何设计一种架构来输入时空信号[49, 68]。鉴于有限的视频训练数据，焦点随后转向了从图像分类预训练借用参数初始化[7]。为了提供视频预训练，一项工作已经在标注视频分类数据集上做出了昂贵的努力[27]。

公众号-arXiv每日学术速递

2024-05-11

1900

瑜伽球上遛「狗」！入选英伟达十大项目之一的Eureka有了新突破

论文配置设计机器人迁移

这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造，并且完全开源。他们提出了 DrEureka（域随机化 Eureka），这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法，可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务，例如四足机器人平衡和在瑜伽球上行走，而无需迭代手动设计。

公众号-arXiv每日学术速递

2024-05-11

1060

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

计算机量子计算系统芯片 gpu

比起当前的CPU、GPU、TPU、FPGA等数字处理器，这种全新的AI加速器快了数个数量级，而且更加节能。

公众号-arXiv每日学术速递

2024-04-30

980

别骂了！翻看学术人设，发现我是「学术乌贼」，总给导师抹黑的那种...

数据统计网络论文事件

师兄师姐，个个为我导喜添SCI，不像我，只要是一出去，参加学术会议露怯、论文答辩支支吾吾的.....多少都能给导师抹点黑，因此课题组里大家都连连赞同我的人设「学术乌贼」，鄙人不才

公众号-arXiv每日学术速递

2024-04-30

1440

斯坦福祭出 CU-Mamba | 不仅具有通道感知，更是将双状态空间模型（SSM）框架融入到U-Net

框架模型数据 ssm 架构

图像恢复是数字图像处理中的基本任务，旨在从各种退化（如噪声、模糊和雨迹）损害的图像中重建高质量图像。最近的进展凸显了卷积神经网络（CNNs）[1, 2, 3]和基于Transformer的模型[4, 5, 6, 7]在此领域的有效性。CNN利用层次结构，擅长捕捉图像内的空间层次。Transformer模型最初是为自然语言处理设计的，但已经显示出对视觉理解的积极成果，例如Vision Transformer[8]。Transformer模型采用自注意力机制，特别擅长建模长距离依赖。这两种方法在许多图像恢复任务中均取得了最先进的结果[9, 10, 11]。

公众号-arXiv每日学术速递

2024-04-25

3600

Linux之父讽刺AI炒作：很搞笑，大概我也会被大模型取代

模型硬件 linux 人工智能开发者

几天前，由 Linux 基金会主办的北美开源峰会（Open Source Summit North America）在华盛顿西雅图闭幕。

公众号-arXiv每日学术速递

2024-04-25

950

轻量化之王MobileNetV4 开源 | Top-1 精度 87%，手机推理速度 3.8ms，原地起飞！

模型手机搜索硬件开源

作者的两阶段神经网络架构搜索（NAS）方法，将粗略搜索与细粒度搜索分开，显著提升了搜索效率，并促进了比先前最先进模型显著更大的模型的创建。此外，结合离线蒸馏数据集，减少了NAS奖励测量中的噪声，从而提升了模型质量。

公众号-arXiv每日学术速递

2024-04-25

2.2K0

超越BEVFusion！DifFUSER：扩散模型杀入自动驾驶多任务（BEV分割+检测双SOTA）

网络自动驾驶模型数据算法

目前，随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多，工业界和学术界非常希望一个理想的感知算法模型，可以同时完成如3D目标检测以及基于BEV空间的语义分割在内的多个感知任务。对于一辆能够实现自动驾驶功能的车辆而言，其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器来采集不同模态的数据信息，从而充分利用不同模态数据之间的互补优势，比如三维的点云数据可以为3D目标检测任务提供算法模型必要的几何数据和深度信息；2D的图像数据可以为基于BEV空间的语义分割任务提供至关重要的色彩和语义纹理信息，通过将不同模态数据的有效结果，使得部署在车上的多模态感知算法模型输出更加鲁棒和准确的空间感知结果。

公众号-arXiv每日学术速递

2024-04-25

2200

华为开源 GhostNetV3 | 优化边缘计算，性能显著提升、超越 MobileNet !

优化开源边缘计算华为性能

在移动设备上仅用269MFLOPs和14.46ms的延迟，就达到了79.1%的top-1准确率，大幅超过了其通常训练的对应模型。此外，作者的观察还可以扩展到目标检测场景。关注公众号，私信「获取代码」获取 PyTorch代码和预训练权重。

公众号-arXiv每日学术速递

2024-04-25

5430

GPT-4化身黑客搞破坏，成功率87%！OpenAI要求保密提示词，网友复现ing

黑客 gpt openai 漏洞模型

这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架，研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。

公众号-arXiv每日学术速递

2024-04-25

1430

MambaDFuse 出手就知道有没有 | 模态问题怎么办？特征融合怎么解？速度怎么变快？这就是标杆！

模型设计性能工作架构

图像融合旨在从多个源图像中结合基本的信息表示，以生成高质量、内容丰富的融合图像。根据成像设备或成像设置的不同，图像融合可以分为多种类型，包括多模态图像融合（MMIF）、数字摄影图像融合和遥感图像融合。红外-可见光图像融合（IVF）和医学图像融合（MIF）是MMIF的两个典型任务，它们对来自所有传感器的跨模态特征进行建模和融合。特别是，红外传感器捕捉热辐射数据，突出显示显著目标，而可见光传感器捕捉反射光信息，生成富含纹理细节的数字图像。IVF旨在整合源图像中的互补信息，生成在突出显著目标的同时保留丰富纹理细节的高对比度融合图像。这些融合图像提供了增强的场景表示和视觉感知，有助于后续的实际视觉应用，如多模态显著性检测、目标检测和语义分割。

公众号-arXiv每日学术速递

2024-04-25

3300

CVPR 2024 | 巨幅提升24%！LiDAR4D会是LiDAR重建的答案么？

工作框架数据优化渲染

尽管神经辐射场（NeRFs）在图像新视角合成（NVS）方面取得了成功，但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline，但忽略了激光雷达点云的动态特性和大规模重建问题。有鉴于此，我们提出了LiDAR4D，这是一种用于新的时空LiDAR视图合成的LiDAR-only的可微分框架。考虑到稀疏性和大规模特征，进一步设计了一种结合多平面和网格特征的4D混合表示，以实现从粗到细的有效重建。此外引入了从点云导出的几何约束，以提高时序一致性。对于激光雷达点云的真实重建，我们结合了ray-drop概率的全局优化，以保持cross-region模式。在KITTI-360和NuScenes数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面的优越性。

公众号-arXiv每日学术速递

2024-04-25

2680

点击加载更多

社区活动

AI代码助手快速上手训练营

鹅厂大牛带你玩转AI智能结对编程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态