
在自动驾驶赛道场景中,锥桶定位是车辆路径规划的基础任务。然而,传统方案面临着成本高昂、Z轴误差大、计算复杂三大痛点。最新提出的UNet-RKNet架构首次将UNet应用于3D锥桶关键点回归任务,仅需单目摄像头即可输出锥桶底部中心点的3D坐标,在标准测试集上达到横向误差<5cm、纵向误差<8cm的精度,推理速度达45FPS(NVIDIA Jetson Xavier)。

论文链接:https://arxiv.org/pdf/2602.21904v1
在自动驾驶赛车或园区物流场景中,锥桶定位的难点在于:
UNet-RKNet的出现,正是为了解决上述“既要马儿跑,又要马儿少吃草”的矛盾。

网络采用ResNet-34+UNet混合结构,通过两个分支分别输出热图和深度图:
编码分支:输出H×W×3的热图,对应锥桶底部中心点
回归分支:输出H×W×1的深度图,对应纵向距离
创新点:在跳跃连接处添加CoordConv层,显式编码空间位置信息,显著提升定位精度

针对锥桶小目标和样本不均衡问题,提出锥桶合成引擎:
虚拟渲染:在虚拟环境中随机生成不同光照/角度的锥桶图像
对抗遮挡:随机添加10%-30%面积的矩形遮挡,模拟真实遮挡
运动模糊:模拟高速场景下的运动模糊,增强鲁棒性


采用复合损失函数平衡检测与回归任务:
热图损失:改进的Focal Loss(α=0.8, γ=2),解决正负样本不均
深度损失:Smooth L1 Loss(β=0.3),保证深度回归平滑
总损失:L_total = L_heat + β*L_depth
工程实现细节:从训练到部署的全流程优化


在标准测试集上,UNet-RKNet达到:
横向误差:<5cm
纵向误差:<8cm
推理速度:45FPS(NVIDIA Jetson Xavier)
这意味着车辆可以在高速行驶中实时获取锥桶的精确3D位置,为路径规划提供可靠输入。


三大优势
思考题:嵌入式设备上的精度与开销平衡
在资源受限的嵌入式设备上,你会优先牺牲精度还是帧率来满足部署要求?欢迎在评论区分享你的工程经验!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。