首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ARKit

您还可以省略摄像机视图并使用ARKit面部表情数据为虚拟角色设置动画,iMessage的Animoji应用程序中所示。...建立您的第一个AR体验 创建运行AR会话的应用程序,并使用平面检测使用SceneKit放置3D内容。 了解ARKit中的世界跟踪 发现支持概念,功能和最佳实践,以构建出色的AR体验。...创建持久的AR体验 保存并加载ARKit世界地图数据,以允许用户在相同的真实环境中返回之前的AR体验。 class ARWorldMap 来自世界跟踪AR会话的空间映射状态和锚点。...图像检测和跟踪 在用户环境中使用已知的2D图像来增强世界跟踪AR会话。 识别AR体验中的图像 检测用户环境中的已知2D图像,并使用其位置放置AR内容。...class ARReferenceImage 在世界跟踪AR会话期间在现实世界环境中识别的图像。 class ARImageAnchor 有关在世界跟踪AR会话中检测到的图像的位置和方向的信息。

2.2K20

谷歌AI良心开源:一部手机就能完成3D目标检测,还是实时的那种

这个pipeline检测2D图像中的物体,然后通过机器学习模型,来估计它的姿态和大小。 那么,它具体是怎么做到的呢? 获取真实世界中的3D数据 我们知道,3D数据相对于2D来说,非常有限。...为了解决这个问题,谷歌AI的研究人员使用移动增强现实(AR)会话数据(session data),开发了新的数据pipeline。...目前来说,大部分智能手机现在都具备了增强现实的功能,在这个过程中捕捉额外的信息,包括相机姿态、稀疏的3D点云、估计的光照和平面。...为了标记groud truth数据,研究人员构建了一个新的注释工具,并将它和AR会话数据拿来一起使用,能让注释器快速地标记对象的3D边界框。 这个工具使用分屏视图来显示2D视频帧,例如下图所示。...对于静态对象,只需要在单帧中注释一个对象,并使用来自AR会话数据的ground truth摄像机位姿信息,将它的位置传播到所有帧。 这就让该过程变得非常高效。

87200
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌发布Objectron数据,推进三维物体几何理解的极限

在这些成功的基础上,提高模型对 3D 物体的理解力有很大的潜力来支持更广泛的应用场景,增强现实、机器人、自动化和图像检索。...近期谷歌发布了 Objectron 数据,这是一个以对象为中心的短视频剪辑数据,从不同的角度捕捉了一组更大的普通对象。 每个视频剪辑都伴随着 AR 会话元数据,其中包括摄像机姿态和稀疏点云。...该数据包括15K 注释视频剪辑与超过4M 注释图像收集的地理多样性样本(涵盖10个国家横跨五大洲)。...第一级使用 TensorFlow 目标检测模型来寻找物体的 2D 裁剪,第二级使用图像裁剪来估计三维bounding box,同时计算下一帧对象的二维裁剪,使得目标检测器不需要运行每一帧。...这些数据集中的物体包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子等,和数据一起发布的具有以下内容: 1.视频序列 2.带注释的标签(目标的3D 边界框) 3.AR 元数据 (照相机姿态

65430

ARKit 的配置-在您的AR项目的幕后

在本节中,我们将看看如何在后面配置提供的ARKit模板。我们将发现什么是世界跟踪和AR会话。同样,我们将学习如何将一些调试选项应用于场景中的指导。...已定义一个称为配置的新会话配置, 以允许进行世界跟踪。 AR会话 然后,我们需要使用刚刚设置的配置运行会话。 一个ARSession允许您运行和应用不同的技术。...运行该应用程序以检查它。 统计信息提供有关场景渲染性能的信息,每秒帧数(fps),动画,物理等.Apple建议将fps设置为60.在您的设备上,您可以单击+按钮展开统计栏更多细节。...显示统计 调试选项 对于ARKit,有两个可用的调试选项可供我们在场景中进行参考。添加它们以在屏幕上看到它。调试选项是一个数组或列表,因此您需要使用方括号。现在运行应用程序。...如果没有泛光灯,此图像显示激活默认照明与否之间的区别。亲自看看吧! ? WatchSceneComparison 结论 虽然可以从一开始就使用模板,但了解它的结构非常重要。

2.5K20

多视角、体素、XR等新型视频服务技术(IBC2019)

为了在发展过程中做好抉择,需要提前预测系统参数(例如摄像头间距)和深度估计算法对图像质量的影响。 本文提出了一种使用人工场景的光线追踪图像的质量估计方法。...PSNR 在用单一数据比较 baseline 时尤其有用。然后用 PSNR 对比合成图像与光线追踪的图像。 下图给出了整体流程: ?...网格用一种标准编码器(文章的图 5)来编码,纹理用在移动设备上速度更快的 H.264/AVC 来编码,音频信号用标准音频编码器编码。三种不同的流多路集成 MP4 文件。...基于 5G 的扩展现实的技术 这部分主要讲如何在体视频数据的帮助下演示 3D 虚拟媒体,以及 XR 的一般结构。...在 3GPP(第三代移动通讯合作计划)中,有以下沉浸式服务相关标准:沉浸式音频服务(IVAS,用于口语音频、多流电视会话、VR 会话、用户生成的实时或非实时流),QoE 度量(QoE Metrics,用于度量设备容量与延迟

1.4K00

你们还在做2D的物体检测吗?谷歌已经开始玩转 3D 了

该管道可以检测2D图像中的物体,然后通过机器学习模型估计物体的姿势和大小,再在谷歌最新开发的3D数据上对模型进行训练。...为了解决这一问题,谷歌使用移动增强现实会话数据开发了一个新的数据管道。...随着ARCore 、ARKit等工具的出现,数亿部智能手机现在具备了AR 功能,能够在 AR会话期间捕捉到额外的信息,包括摄像机姿势、稀疏的3D点云、估计的照明和平面。...为了标注真实数据,谷歌还开发了能够与AR会话数据一同使用的新标注工具,让标注者可以快速地给物体标注 3D 边框。...谷歌提出的新方法,叫做AR 合成数据生成(AR Synthetic Data Generation),将虚拟物体放置到已有 AR 会话数据的场景中,可以利用摄像机姿势、检测到的平面以及估计的照明情况来生成物理世界中可能存在以及照明条件能够与场景匹配的位置

98520

卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清

你有没有发现,最近大火的扩散模型 DALL·E 2、Imagen 和 Stable Diffusion,虽然在文本到图像生成方面可圈可点,但它们只是侧重于单幅图像生成,假如要求它们生成一系列连贯的图像漫画...最后,该研究在两个数据 FlintstonesSV 和 PororoSV 上进行了实验,虽然使用的数据都是卡通图像,但该研究还引入了一个新的数据 VIST,来更好地评估 AR-LDM 对真实世界的故事合成能力...具体地,AR-LDM 在扩散过程中使用潜在表示 代替像素,最终输出可以用 D(z) 解码回像素空间。...对于故事连贯性,第一帧被指定为源帧,并参考源帧生成其余 4 帧。他们在 8 块 NVIDIA A100-80GB GPU 上对 AR-LDM 训练了 50 个 epoch,用时两天。...因此,AR-LDM 根据每一个描述生成三个不同的角色。在对 3-5 幅图像进行微调后,自适应 AR-LDM 可以生成一致的角色,并字幕所描述的那样忠实地合成场景和角色。

61730

ARKit 简介

增强现实(AugmentedReality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。...处理器A9及以上(6S机型及以上) 实现步骤 一个简单的AR场景实现所需要的技术和实现步骤如下: 1.多媒体捕捉现实图像摄像头 2.三维建模:3D立体模型 3.传感器追踪:主要追踪现实世界动态物体的六轴变化...4.坐标识别及转换:3D模型显示在现实图像中不是单纯的frame坐标点,而是一个三维的矩阵坐标。这基本上也是学习AR最难的部分,好在ARKit帮助我们大大简化了这一过程。...代码不用做任何的修改,直接运行即可。...//创建节点(节点可以理解为AR将要展示的2D图像) SKLabelNode *labelNode = [SKLabelNode labelNodeWithText:@" 修改模型 在苹果的例子中

2.5K60

原创轻量VIO算法、简单易上手:XRSLAM帮你快速搭建移动平台AR应用

特性介绍 XRSLAM[4]是OpenXRLab空间计算平台中基于C++语言实现的SLAM算法库,算法基于单目视觉和IMU实现了轻量级的VIO,同时支持桌面平台和移动平台,算法在EuRoC[3]等公开数据上达到...在当前开源的版本中,XRSLAM的核心是一个轻量级的VIO算法,其中包括对IMU数据的预积分,对图像数据的特征匹配,基于视觉、IMU的线性对齐初始化以及完整的划窗优化等。...3 完善的文档说明 为了让用户能快速上手XRSLAM,我们提供了详尽的文档和教程供使用者参考,其中包含了: 如何在PC平台编译和运行何在移动平台开发AR demo VIO能够正常稳定的运行,依赖对多传感器参数进行提前标定...,我们提前对近几年的iOS设备进行了参数标定,使得开发者随手可以快速运行起来我们的AR demo。...效果指标对比结果(注意这里的精度指标都不包含回路闭合的功能) EuRoC V101算法运行可视化效果 移动端AR效果(视频2倍速播放) No.4 总结 SLAM是一个既古老又充满活力的研究领域,在这个方向仍有很多值得研究的热点问题

38820

OnePose: 无CAD模型的one-shot物体姿态估计(CVPR 2022)

我们还收集了一个大规模的数据,其中包括150个物体的450个序列。 一、介绍 物体姿势估计在增强现实(AR)中发挥着重要作用。...序言 数据采集和注释:在数据采集过程中,假设物体被设置在一个平面上,并且在采集过程中保持静态。...增加要匹配的图像对的数量将大大降低定位的速度,特别是对于基于学习的匹配器,SuperGlue[32]或LoFTR[36]。...由于序列之间的背景不同,我们只在所有可匹配的图像对之间的前景(即在二维物体边界框内)提取匹配。关于我们的数据收集和处理管道的更多细节,请参考我们的补充材料。...运行时间分析:我们在表1中报告了我们的视觉定位基线和我们的方法的运行时间。1. 运行时间包括使用SuperPoint对查询图像进行特征提取,以及不使用2D检测和PnP的2D-3D匹配过程。

34320

音视频技术开发周刊 | 274

打造车内音频新体验:薄面板的扬声器、无损音频和空间音频、个性化听音 今天我们将介绍几项车内音频体验的新花样。...WCNC 2020 | 在交互式视频会话中动态调整 jitter buffer 以降低延迟 在本文中,我们使用我们的数据的一部分,过滤的16129个实时流会话来分析抖动缓冲区的性能。...OpenCV是一个用于计算机视觉、机器学习和图像处理的大型开源库。OpenCV 支持多种编程语言, Python、C++、Java 等。...一文读懂AR-HUD技术 AR HUD即AR技术与抬头显示的结合体。...AR HUD是在HUD光学投影系统中融入AR技术,在我们看到的真实世界中覆盖上数字图像,使得HUD投射出来的信息与真实的驾驶环境融为一体。

61840

原创轻量VIO算法、简单易上手——XRSLAM帮你快速搭建移动平台AR应用

特性介绍XRSLAM[4]是OpenXRLab空间计算平台中基于C++语言实现的SLAM算法库,算法基于单目视觉和IMU实现了轻量级的VIO,同时支持桌面平台和移动平台,算法在EuRoC[3]等公开数据上达到...在当前开源的版本中,XRSLAM的核心是一个轻量级的VIO算法,其中包括对IMU数据的预积分,对图像数据的特征匹配,基于视觉、IMU的线性对齐初始化以及完整的划窗优化等。...XRSLAM支持Linux、Mac、Android、iOS等多个平台的编译运行,当前发布的版本中,我们也提供了Linux/Mac和iOS的完整的编译流程和可以方便运行的demo。...1.3 完善的文档说明为了让用户能快速上手XRSLAM,我们提供了详尽的文档和教程供使用者参考,其中包含了:如何在PC平台编译和运行:如何在移动平台开发AR demo:VIO能够正常稳定的运行,依赖对多传感器参数进行提前标定...,我们提前对近几年的iOS设备进行了参数标定,使得开发者随手可以快速运行起来我们的AR demo。

81750

音视频技术开发周刊 | 238

我们如何建立一套无参考视频质量评价体系? 在实时互动无处不在的今天,视频质量是反映终端用户体验的重要指标。...只用一张训练图像进行图像的恢复 计算机视觉的深度学习应用往往需要大量的图像数据,现在我告诉你,只有一张图像也可以训练,是不是非常神奇?...AR导航背后的秘密,你知道多少? 自打用过AR驾车导航/AR步行导航,很多小伙伴直呼黑科技真香!...针对基于视觉感知的自动驾驶系统,设计开发了一种场景驱动的、可解释强的、运行高效的安全性测试系统。...对话美摄科技侯康:提升技术,拓展场景 美摄智能汽车视频处理方案已就位 来自美摄科技的算法工程师侯康,他向我们介绍了过去的一年美摄科技在音视频领域关注的重点、在美摄汽车智能剪辑方案开发过程中所做的工作、研发过程中遇到的

1.3K60

在CVPR上,OPPO的一系列「业界首次」

一块平板,实时构建 3D 模型 图像分割是 AI 领域的重要技术,许多计算机视觉任务,机器人、AR/VR 应用中,人们都需要对图像进行智能分割,以充分理解周围环境,实例分割旨在让 AI 识别出 3D...如何在实现在线推理和 3D 重建的同时实现高度准确的 3D 语义实例分割仍然是一个悬而未决的问题。...从便携式设备上本地运行的 Demo 效果来看,INS-Conv 在准确性和效率方面的领先性能使其特别适用于 AR/VR 或机器人应用,为自动驾驶、虚拟现实等前沿技术的落地提供了高效率、低成本的新方法。...除上述提出的算法外,在参考已有美学评价主流数据的基础上,来自 OPPO 和西电的研究员们进行了迄今为止最全面的个性化图像美学评价主观实验,构建了一个具有丰富注释的个性化美学评价数据库 “PARA“并将其开源...数据包含 31220 张图像,每张图平均由 25 个人类受试者进行注释,标注了 4 个面向人的主观属性(内容偏好、分享意愿等)和 9 个面向图像的客观属性(图像美学、情感等)。

54920

音视频技术开发周刊 | 244

https://juejin.cn/post/7084107976734146597 技术解码 | Web端AR美颜特效性能优化 Web技术在XR领域最多被诟病的缺陷在于其性能瓶颈,我们在实际的开发过程中也遇到了一些性能问题...在本文中将以这些技术为基础探讨如何在Web端的AR应用里进行性能优化,以实现更快的渲染速度、更高的渲染帧率。...自动驾驶中道路目标检测的极端情况数据 CODA的挑战性数据揭示了基于视觉检测器的关键问题。...本期文章为大家简要分享这篇论文中的精华要点,供广大研究者开发者们参考。 骨传导与气传导到底有什么不同? 声音主要通过两种途径传入内耳,即空气传导和骨传导。通常情况下,两种传播路径同时运行。...16万视频对、28万对片段,蚂蚁开源视频侵权检测超大数据 该研究提出了目前最大规模(超过现有其他数据 2 个数量级规模)的视频侵权定位数据VCSL,并提出全新的视频片段拷贝检测的评价指标。

83040

移动深度学习:人工智能的深水区

从深度学习技术的运行端来看,主要可以分为下面两种。 一种是完全运行在移动端,这种方式的优点显而易见,那就是体验好。在移动端高效运行神经网络,用户使用起来会感觉没有任何加载过程,非常流畅。...前面的“拾相”和手机百度中的图像搜索都属于这一流派,还有其他一些比较好的应用,典型的如识别植物花卉的App“识花”。 另一种是在服务器端运行深度学习技术,移动端只负责UI展示。...视频主体检测技术主要根据物体的特征来进行判别,整个流程(识别和监测这样的操作)包含大量的神经网络计算。...如何使深度学习技术稳定高效地运行在移动设备上是最大的考验。拆解落地过程中的复杂算法问题,就是移动端团队面临的首要挑战。...在移动端应用深度学习技术时,往往没有太多可以查阅和参考的资料,需要开发人员活学活用,因地制宜。接下来通过实例看一下,如何使用诸多办法来实现AR实时翻译功能。

1.6K20

Google发布Objectron数据

今天,我们很高兴发布Objectron数据,这是一个短的,以对象为中心的视频剪辑的集合,可以从不同的角度捕获更大的一组公共对象。每个视频剪辑都随附有AR会话元数据,其中包括相机姿势和稀疏点云。...数据包括15K带注释的视频剪辑,并补充了从不同地理区域的样本中收集的超过4M带注释的图像(覆盖五大洲的10个国家/地区)。...然后,第二阶段使用图像裁剪来估计3D边框,同时为下一帧计算实体的2D裁剪,因此实体检测器不需要运行每个帧。第二阶段3D边框预测器在Adreno 650移动GPU上以83 FPS运行。 ?...数据包括自行车,书籍,瓶子,照相机,谷物盒,椅子,杯子,笔记本电脑和鞋子,并存储在Google Cloud存储上的objectron存储桶中,具有以下资源: 视频片段 注释标签(实体的3D边框) AR...元数据(例如照相机姿势,点云和平面) 已处理的数据:带注释帧的改编版本,图像的格式为tf.example,视频的格式为SequenceExample。

77930

ARKit浅析V1.0

增强现实技术(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。...设备:处理器A9及以上(6S机型及以上) 4.MacOS系统:10.12.4及以上(安装Xcode9对Mac系统版本有要求) 二、ARKit工作原理和流程 首先需要说明的是,ARKit并不是一个能够独立运行的框架...以下是一段代码,可以简单的展示一个虚拟物体: 1)首先需要为ARSession 配置运行参数,参数其实挺简单。 ? 2)使用SCNScene加载3D模型,然后设置成主场景。 ?...ARSessionDelegate @protocol ARSessionDelegate @optional /** 相机当前状态(ARFrame:空间位置,图像帧等...拖拽3D虚拟物体,都可以通过这个类来获取ARKit 所捕捉的结果 上文主要参考官方文档和网络博客:http://blog.csdn.net/u013263917/article/details/72903174

1.7K50

OpenAI CLIP模型新尝试,有开发者在Colab上实现近200万图片的精准检索匹配

本月初,OpenAI 同时发布了两个连接文本与图像的神经网络:DALL·E 和 CLIP。其中,DALL·E 可以基于文本直接生成图像,CLIP 能够完成图像与文本类别的匹配。...该项目所有图片出自 Unsplash 数据,大约有 200 万张,利用 CLIP 模型进行处理。项目既可以在给定的免费谷歌 Colab notebook 中运行,也可以在用户自己的机器上运行。 ?...谷歌 Colab notebook 上运行 在给定的 Colab 会话中进行首次搜索的步骤如下: 1. 首先需要进入 Colab 界面; 2. 登录谷歌账户,单击右上角的「S」按钮即可完成此操作。...,请参考上述步骤 5-7。...如果你想使用完整版,你需要申请(免费)访问权限;使用 Unsplash Search API 搜索图像不需要访问 Unsplash 数据,但可能会产生糟糕的结果。 项目作者 ?

1.5K30
领券