每日学术速递9.27

AiCharm

修改于 2023-09-27 12:42:19

1910

修改于 2023-09-27 12:42:19

文章被收录于专栏：AiCharm

1.FourierHandFlow: Neural 4D Hand Representation Using Fourier Query Flow

(NeurlPS 2023)

标题：FourierHandFlow：使用傅立叶查询流的神经 4D 手部表示

作者：Jihyun Lee, Junbong Jang, Donghwan Kim, Minhyuk Sung, Tae-Kyun Kim

文章链接：https://arxiv.org/abs/2307.08100

项目代码：https://jyunlee.github.io/projects/fourier-hand-flow/

摘要：

最近的 4D 形状表示通过以下方式对隐式形状的连续时间演化进行建模：(1) 在不利用形状和关节先验的情况下学习查询流，或 (2) 分别为每个时间值解码形状占用。因此，它们不能有效地捕获铰接形状之间的隐含对应关系或规范抖动的时间变形。在这项工作中，我们提出了 FourierHandFlow，它是人手的时空连续表示，它将 3D 占用场与表示为傅立叶级数的关节感知查询流相结合。给定输入 RGB 序列，我们的目标是为每个查询流学习固定数量的傅立叶系数，以保证平滑且连续的时间形状动态。为了有效地建模关节手的时空变形，我们基于两种类型的傅里叶查询流组成我们的 4D 表示：（1）姿势流，通过隐式线性混合蒙皮对受手部关节变化影响的查询动态进行建模；（2）形状流对查询方式的位移流进行建模。在实验中，我们的方法在基于视频的 4D 重建方面取得了最先进的结果，同时在计算上比现有的 3D/4D 隐式形状表示更高效。我们还使用学习到的隐式形状的对应关系展示了运动插值和外推以及纹理传输的结果。据我们所知，FourierHandFlow 是第一个从 RGB 视频中学习的神经 4D 连续手部表示。该代码将可供公众访问。

2.NAS-NeRF: Generative Neural Architecture Search for Neural Radiance Fields(CVPR 2023)

标题：NAS-NeRF：神经辐射场的生成神经架构搜索

作者：Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee, Alexander Wong

文章链接：https://arxiv.org/abs/2309.14293

项目代码：https://saeejithnair.github.io/NAS-NeRF/

摘要：

神经辐射场 (NeRF) 可实现高质量的新颖视图合成，但其极高的计算复杂性限制了可部署性，尤其是在资源受限的平台上。为了实现 NeRF 的实际使用，质量调整对于降低计算复杂性至关重要，类似于视频游戏中可调整的图形设置。然而，尽管现有解决方案力求效率，但无论场景复杂程度如何，它们都使用一刀切的架构，尽管相同的架构对于简单场景可能不必要地大，但对于复杂场景却不够。因此，随着 NeRF 越来越广泛地用于 3D 可视化，需要动态优化 NeRF 的神经网络组件，以实现计算复杂性和合成质量的特定目标之间的平衡。为了解决这一差距，我们引入了 NAS-NeRF：一种专门定制的生成神经架构搜索策略，通过优化复杂性和性能之间的权衡，在每个场景的基础上生成 NeRF 架构，同时遵守计算预算和最低合成质量的限制。我们在 Blender 合成数据集上的实验表明，所提出的 NAS-NeRF 可以生成最多缩小 5.74 × 的架构，减少 4.19 × 的 FLOP，并加快 1.93 × 在 GPU 上的性能优于基准 NeRF，且 SSIM 没有下降。此外，我们还表明，NAS-NeRF 还可以实现比基线 NeRF 缩小 23 × 、减少 22 × FLOP 和加快 4.7 × 的架构，仅需要SSIM 平均下降 5.3%。我们工作的源代码也可以通过此 https URL 公开获取。

3.Robotic Offline RL from Internet Videos via Value-Function Pre-Training

标题：通过价值函数预训练从互联网视频中实现机器人离线强化学习

作者：Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar

文章链接：https://arxiv.org/abs/2309.13041

项目代码：https://dibyaghosh.com/vptr/

摘要：

事实证明，互联网数据的预训练是许多现代机器学习系统广泛泛化的关键因素。如何在机器人强化学习 (RL) 中实现此类功能？离线强化学习方法从机器人经验数据集中学习，提供了一种将先前数据利用到机器人学习流程中的方法。然而，这些方法与视频数据（例如 Ego4D）（可用于机器人技术的最大先验数据集）存在“类型不匹配”，因为视频提供仅观察的体验，而没有 RL 方法所需的动作或奖励注释。在本文中，我们开发了一种在机器人离线强化学习中利用大规模人类视频数据集的系统，该系统完全基于通过时差学习来学习价值函数。我们表明，与其他从视频数据学习的方法相比，视频数据集上的价值学习所学习的表示更有利于下游机器人离线强化学习。我们的系统称为 V-PTR，将视频数据预训练的优点与对不同机器人数据进行训练的机器人离线 RL 方法相结合，从而产生性能更好、行为稳健且泛化广泛的操作任务的价值函数和策略。在真实 WidowX 机器人上的几个操作任务中，我们的框架生成的策略比以前的方法大大改进。我们的视频和其他详细信息可以在此 https URL 找到

我正在参与2023腾讯技术创作特训营第二期有奖征文，瓜分万元奖池和键盘手表

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-09-27 09:06，如有侵权请联系 cloudcommunity@tencent.com 删除

2023腾讯·技术创作特训营第二期

本文分享自 AiCharm 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

2023腾讯·技术创作特训营第二期

登录后参与评论

0 条评论

热度

每日学术速递9.27

每日学术速递9.27

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐