我正在研究一种机器学习模型,用于使用深度图像检测手部关键点。到目前为止,我看到的数据集包括世界视图和图像视图中关键点/骨架的标签(参见Shrec 17或DHG数据集)。我已经看过几篇论文和它们的实现,它们学习关键点检测的世界坐标。我想了解如何将3D世界坐标映射到深度图像,检查数据的可视化,并可能扩展经过训练的模型,以便在Azure Kinect上进行实时预测/可视化
发布于 2020-12-01 21:55:51
你必须知道摄像机的校准矩阵。此操作的管道如下所示。
3D世界坐标--> 3D相机坐标--> 2D相机坐标。
第一步称为外部校准,第二步是所谓的内部校准,您在任何情况下都需要它。
例如:假设您有一个用于3D点检测的LIDAR。您拥有的世界坐标不是相对于LIDAR的原点。如果您的相机与您的LIDAR不在同一位置(这在物理上是不可能的,但如果它们非常接近,您可能会忽略),首先,您必须转换这些3D坐标,以便它们现在相对于相机的原点进行表示。如果您知道相机和激光雷达的位置,则可以使用旋转和平移变换矩阵执行此操作。
第二步再一次通过变换矩阵。但是,您需要了解使用中的相机的一些内部参数。(例如焦距,偏斜)如果你有相机,这些可以通过一些实验计算出来,但在你的情况下,应该是这些校准矩阵与数据一起提供给你。那就自找麻烦吧。
您可以在此链接中阅读所有这些内容。https://www.mathworks.com/help/vision/ug/camera-calibration.html
https://stackoverflow.com/questions/65017317
复制相似问题