暂无搜索历史
LeCun的LeJEPA到底有没有构建出世界模型?他本人最新发表的论文,解答了这个问题。
这流畅的游戏动作,简直堪比是技术流游戏玩家的实况画面。尤其是茶杯头的躲避跳跃踩灵魂一气呵成,让我们自愧不如。我要有这么快的反应和操作水准,玩丝之歌真不至于红温。
近年来,大语言模型在数学、代码等任务上的表现不断刷新上限,但到了医疗诊断、故障排查这类真实世界任务里,真正困难的是让多个智能体在不确定的动态环境中持续协作推理。
论文标题:HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generati...
从自然图像中准确估计目标数量,是计算机视觉长期关注的基础任务之一。过去十多年,人群计数、车辆计数、细胞计数等方向已取得了长足进展,模型能够在遮挡、密集分布和尺度...
还有AI Agent、GitHub Copilot、Windows开发者工具,全给端上了桌!!!
✨导读:高精地图造价高昂、更新繁琐,一直是自动驾驶规模化落地的拦路虎。澳门大学联合千里科技提出DriveVLN全新任务,依托视觉+自然语言实现无地图自动驾驶导航...
临床诊断本质上是一个多模态进、多模态出的过程。一位放射科医生看疑似肺部病变时,会综合胸片、既往 CT、病史,然后产出多种互补结果:描述发现的文字报告、标注病灶位...
微软正式开源新一代 3.8B 文生图基础模型 Lens。不同于仅发布模型权重的开源方式,本次 Lens 同时公开了模型权重、技术报告、代码仓库、Hugging ...
2026 年 5 月 29 日,WorldArena 世界模型评测榜单最终结果正式公布。同济大学计算机科学与技术学院空间智能团队主导研发的“无界”世界模型,在这...
过去两年,视频生成模型的发展速度,已经快到让人感觉到有点“魔幻现实主义”。前脚大家还在感叹 AI 终于能生成不抽搐的人脸,后脚 Sora、Kling、Seeda...
香港浸会大学计算机系博士生汪若飞及其导师万人杰教授、北京大学段沛奇博士、施柏鑫教授、以及NVIDIA AI Technology Center 張家俊博士和Si...
大模型进入自动驾驶后,最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道,也可以分析复杂路口中的让行关系。
题目:Any2Any: Unified Arbitrary Modality Translation for Remote Sensing
多名开发者在OpenAI的Codex后台日志中,赫然发现了一个尚未公布的神秘模型gpt-5.6,内部开发代号为 iris-alpha。
芯东西5月25日报道,今日,华为何庭波在中国科学院科技论文预发布平台上发表署名论文《多层电子系统的时间缩微理论(A Time Scaling Theory fo...
近日,浙江大学计算机系统结构实验室(ZJU ARClab)三篇论文同时被第43届国际机器学习大会(International Conference on Mac...
本文第一作者为清华大学博士生韩东辰,主要研究方向包括基础模型架构、持续学习等。通讯作者为黄高副教授。该论文已入选 CVPR 2026 Best Paper Ca...
一句话推荐: 上海交大等单位提出的 Evo-Depth,用约 0.9B 参数,在仿真与真机上同时兼顾性能与部署效率,为资源受限场景下的 VLA 提供了一条轻量化...
题目:Remote SAMsing: From Segment Anything to Segment Everything
暂未填写公司和职称
暂未填写个人网址