一点人工一点智能

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

摘要：论文开篇阐述了三维物体标注在自动驾驶、机器人与增强现实等领域的关键应用价值，并指出其相较于二维标注所特有的空间关系复杂、遮挡和视角变化等挑战。现有方法多依赖于单一模型，难以全面应对这些问题。

3D-Agent：面向全面三维物体标注的三模态多智能体响应框架

人形机器人在工业、家庭、医疗和搜救等领域具有广泛的应用前景，然而其双足运动在不同环境中的稳定性和动态控制仍面临挑战。状态估计在这一过程中扮演关键角色，它为运动控制器提供机器人浮动基座状态的快速准确反馈。传统状态估计方法如卡尔曼滤波器虽广泛应用，但需要专家经验进行噪声参数调优。近年来，随着机器学习的发展，深度学习方法逐渐被引入状态估计任务中。

当传统卡尔曼滤波遇上Transformer，人形机器人站得更稳了！

项目地址：https://emprise.cs.cornell.edu/robo-care/

谁来照顾未来的我们？全球首个专家级机器人护理数据集发布

摘要：论文聚焦于人形机器人在极端平衡任务中的控制问题。人类在执行单脚站立、高抬腿等动作时展现出卓越的平衡能力，而将其转化为机器人控制仍面临诸多挑战。

CoRL 2025：如何教会机器人“扎马步”？揭秘人形机器人极致平衡的三大核心技术

摘要：本文聚焦于视觉-语言模型在机器人场景中的空间推理能力评估问题。作者指出，现有的VLM评估大多局限于单视角设定，忽视了多视角信息融合的能力，而多摄像头配置在机器人平台中日益普及，能够有效缓解遮挡和深度模糊问题。为此，作者提出了MV-RoboBench，一个专门用于评估机器人在多视角空间推理能力的基准测试集。该基准包含1.7K个人工标注的问答对，涵盖八个子任务，分为空间理解和机器人执行两大类别。

单个摄像头已过时？清华微软等发布机器人“多视角理解”新基准，戳破VLMs的3D幻觉

模块化机器人技术为太空探索提供了新的可能性，其具备可靠性高、易于维修和适应性强等特点，适合在月球等极端环境中执行多样化任务。本文基于日本科学技术振兴机构的“Moonshot计划”，旨在开发能够在月球表面自主协作、具备智能演化能力的模块化机器人系统。为此，研究团队开发了名为“MoonBots”的模块化可重构机器人平台，支持在月球基础设施的组装与维护中实现自主与协同操作。

“拼乐高”的月球机器人：每个模块自带AI，任意组合都能零样本上岗

导读：全文围绕机器人学中仿真与现实之间的差异（即“现实鸿沟”）展开，系统性地分析了其成因、评估方法与应对策略，并展望了未来研究方向。

机器人学中的现实鸿沟：挑战、解决方案与最佳实践

摘要：论文提出了一种新型的世界建模方法，旨在通过语义预测而非像素级重建来支持机器人控制中的规划任务。传统世界模型通常通过预测未来帧的像素来模拟环境动态，然而，高保真的像素重建并不总能转化为有效的决策能力。

放弃“看图说话”，让AI用“语言”预见未来：语义世界模型让机器人决策更聪明

摘要：本文提出了一种名为SemNav的新型视觉语义导航方法，其核心思想是利用语义分割作为环境感知的主要输入形式，以提升智能体在未知环境中的导航能力。传统VSN模型多依赖于仿真环境中渲染的RGB图像，存在明显的领域适应问题，难以在真实世界中有效泛化。SemNav通过引入高层次语义信息，增强了模型对环境的理解与决策能力，从而在仿真与真实环境中均表现出优异的导航性能。

告别“色盲”导航：当机器人学会“看语义”，找东西又快又准！

横跨2012–2025年，把计算机视觉（CV）、自然语言处理（NLP）、强化学习（RL）、大语言/多模态模型（LLMs/MLLMs）以及世界模型（WMs）五条技术线的里程碑工作放在同一条时间轴上，直观呈现它们如何交替推动具身智能从“单模块感知”走向“多模态-物理-语义”统一体。

具身智能关键模型技术演化路线图

摘要：文章提出了一种高效的灵巧抓取合成流程，旨在解决机器人抓取中一个长期存在的挑战：如何为任意抓取类型、任意物体和任意多指手合成具有丰富接触、无穿透且物理合理的抓取姿态。

“指定姿势，万物皆可抓！”Dexonomy突破机器人灵巧抓取新极限

摘要：NaVILA（Navigation Vision-Language-Action）是一种面向足式机器人（如四足机器狗或人形机器人）的视觉-语言导航系统。该系统通过两层架构将高级视觉语言理解与低级运动控制相结合，实现了在复杂环境中基于自然语言指令的自主导航。与传统方法不同，NaVILA不直接输出低级别关节动作，而是生成中级别语言指令（如“前进75厘米”），再由专门的运动策略执行。这种设计既保留了视觉语言模型的推理能力，又提升了系统的可迁移性和鲁棒性。论文在多个仿真与真实环境实验中验证了NaVILA的优越性能，特别是在VLN-CE基准测试中取得了超过17%的成功率提升。

NaVILA：基于视觉-语言-动作模型的腿式机器人导航系统

摘要：本文提出了一种名为 T-araVLN 的方法，旨在提升农业机器人在视觉与语言导航（VLN）任务中的性能。该方法通过引入一个指令翻译模块，将原始指令中存在的噪声和错误进行清理和修正，使其更加精炼和准确。

T-ARAVLN：大模型给农业机器人当‘翻译官’，提升导航精度

摘要：本论文提出了一种名为KLEIYN的新型四足机器人，其具备主动腰部关节，能够在复杂地形中进行运动并实现垂直墙面的攀爬。研究背景源于当前四足机器人在动态运动和适应性控制方面的进展，尤其是在强化学习（RL）的推动下，机器人已能应对多种地面条件。然而，在具有显著高度变化的崎岖地形中，垂直运动能力仍然是一个未解决的问题。

KLEIYN：一种具有主动腰部关节的四足机器人，用于运动与爬墙

摘要：本文提出了一种基于学习的视觉导航方法，使无人机能够在果园行间实现自主飞行。该方法采用基于变分自编码器（VAE）的控制器，通过干预式学习框架进行训练，使无人机能够从人类操作经验中学习视觉-运动策略。研究在真实果园环境中使用定制四旋翼平台进行了验证。

基于视觉的果园无人机导航：一种模仿学习方法

导读：深度学习作为人工智能的核心技术之一，已经在多个领域取得了突破性进展。TensorFlow和PyTorch作为当前最主流的深度学习框架，各自具有独特的设计理念和应用优势。本文基于一篇系统性的对比研究，从多个维度对这两个框架进行分析，旨在为研究者和工程师提供选型参考。

深度学习框架对比研究：TensorFlow与PyTorch的综合分析

导读：视觉-语言-动作（Vision-Language-Action, VLA）模型已成为机器人操作策略学习中的重要范式，能够根据语言指令执行任务并泛化至新场景。近年来，研究者开始探索将潜在动作（Latent Actions）——一种对连续帧间视觉变化的抽象表示——引入VLA预训练中。论文提出了一种名为villa-X的新型视觉-语言-潜在动作（ViLLA）框架，显著提升了潜在动作的建模方式及其在VLA预训练中的融合效果。

视觉-语言-动作三模态融合新突破：villa-X让机器人像人一样“看懂就会做”

导读：H-RDT（Human to Robotics Diffusion Transformer）是一项旨在利用大规模人类操作数据提升机器人操作能力的研究工作。该研究由清华大学与地平线机器人合作完成，主要针对机器人模仿学习中高质量演示数据稀缺的问题，提出了一种基于人类第一视角视频与3D手部姿态数据的预训练与跨具身微调方法。

H-RDT：基于人类操作增强的双臂机器人操作研究

摘要：本文提出了一种名为“对抗性运动与运动模仿”（Adversarial Locomotion and Motion Imitation, ALMI）的新型框架，旨在解决人形机器人在全身协调控制中的挑战。

对抗性运动与运动模仿在人形机器人策略学习中的应用

导读：模仿学习已成为机器人操作中的重要范式，通过模仿人类专家的演示行为，机器人能够在多种操作任务中表现出卓越的性能。然而，现有的模仿学习方法在面对新物体、新背景或新光照条件时往往表现不佳，其泛化能力受限于训练数据中对象的具体特征和有限的环境变化。

知识驱动的模仿学习：让机器人模仿学习更智能、更泛化

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了一点人工一点智能专栏，为你提供了一点人工一点智能的相关文章，致力于帮助开发者快速成长与发展。

一点人工一点智能

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐