首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用油管上的“木头人”挑战视频,谷歌训练出顶级的景深检测模型

因此,大多数现有的方法要么过滤掉移动对象(给它们的深度值赋为“零”) ,要么忽略它们(这会导致不正确的深度值)。...谷歌的这篇论文就巧妙地利用了YouTube上大量挑战视频作为数据集,然后利用深度学习构建了一个模型,可以从普通视频生成深度地图,在这种视频中摄像机和主体都可以自由移动。...模型提取景深的效果 数据集来自YouTube“木头人挑战“ 研究人员在有监督的方式下训练深度学习模型,这需要由移动的摄像机捕捉的自然场景的视频,以及精确的深度图,关键问题是从哪里得到这些数据。...如何推测移动人物的深度 “木头人挑战”的视频为移动的摄像机和“静止”的人提供了深度监控,而研究人员的目标是可以处理用移动的摄像机和移动的人的视频,因此他们需要对神经网络的输入进行结构化,以便缩小这一差距...3D视频深度检测效果 该视频景深检测模型可以用来产生一系列三维感知的视频效果,其中一种效应就是合成散焦,下面是一个示例: 其他应用还包括从单目视频生成立体视频,以及插入CG物体到场景中,并且还具备利用其他帧的画面去填补被任务遮挡区域的能力

81710

利用NVIDIA AGX Xavier为骨科医生构建深度学习工具

但外科医生越来越倾向于采用微创技术,这种技术依赖于微型摄像机的实时视频传输,在小得多的切口之外提供更有限的视野。 对病人的好处是显而易见的:更少的失血,更少的疼痛和更快的恢复时间。...Kaliber实验室目前的人工智能工具主要用于骨科手术,包括肩部、膝盖、臀部和手腕手术。关节镜或微创关节手术是最常见的骨科手术,用于治疗许多疾病和运动损伤。...在手术开始时,Kaliber实验室的深度学习工具会使用视频来识别正在进行的手术类型和正在使用的摄像机视图。然后,针对相关过程类型的AI模型发挥作用,进行实时指导。...为了在手术过程中实时工作,Rahman说边缘的GPU至关重要。 “我们运行一系列的模型来检测解剖学和病理学,以及各种测量算法,”他说。...Kaliber实验室正在开发一套人工智能模型,用于分析和标注手术视频,并描述手术过程中的每一步。向患者提供手术的注释片段可能对那些对手术好奇的人有用,并提高手术过程的透明度。

98940
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    吉长江:基于学习的视频植入技术是未来趋势

    因此我们需要通过精准掌握摄像机的运动轨迹,妥善处理多个物体的遮挡关系,准确估算光照等操作,让植入的视频元素自然地出现在视频画面中而不显得突兀生硬。...例如大家非常熟悉的强调实时性的AR,其植入对象是比较虚拟化的,用户很容易分辨出植入对象并非真实的视频元素;但对视频植入广告来说需要完成的是影视级别的植入,也就是需要实现让植入广告成为原生拍摄的真实元素,...首先需要的是视频镜头定位,而后进行包括平面检测与摄像机运动深度恢复在内的3D恢复;随后经过一系列的质量评估后就可确定比较适合的植入广告位置,接下来进行光照估计,完成最终的渲染。...上图是我们的AI处理系统识别视频中明星的效果图,通过基于人物的检测追踪和识别技术,我们可以检测识别出影视剧、综艺节目等视频画面中出现的大大小小的明星,准确标注他们出现的时间点与位置并将这些数据整理入库。...除了估算深度与摄像机运动,我们还可以利用语义分割的结果进行平面检测。

    52730

    DragNUWA惊艳亮相:一拖一拽让静图秒变视频

    微软开发的视频生成模型DragNUWA让清明上河图动起来了! 只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。...DragNUWA能同时控制摄像机和多个对象的移动以及复杂的轨迹,从而生成具有现实世界场景和艺术绘画特色的视频。 近年来,可控视频生成技术备受关注。但现有可控视频生成仍存在两大局限: 1....第一组展示了对复杂轨迹的控制,包括复杂运动(红色弯曲箭头和摄像机移动(红色向右箭头)。 第二组展示了语言控制的影响,将不同的文字与相同的图像和轨迹配对,以达到在图像中引入新对象的效果。...在视频制作中,摄像机移动在为观众创造动态和引人入胜的视觉效果方面发挥着重要作用。 不同类型的镜头移动有助于叙述故事或强调场景中的元素。常见的镜头移动不仅包括水平和垂直移动,还包括放大和缩小。...视频中的物体往往具有复杂的运动轨迹。面对多个运动物体、复杂的运动轨迹以及不同物体之间不同的运动幅度,视频生成中的运动建模是一个巨大的挑战。

    21720

    基于边缘AI计算的人员入侵检测CNN算法在实际场景中的应用

    目前AI人员入侵检测有两种:一种是前端智能检测,基于内置AI算法的前端设备(摄像头等),直接在边缘对采集的监控视频图像进行检测识别;另一种是后端智能,将前端设备采集的视频图像传输到后端视频平台,结合平台内置的人工智能检测识别应用...无论是前端的边缘智能,还是后端智能,人员入侵检测技术均是基于深度学习AI算法,通过视频监测周界或区域是否有人员入侵。...人员入侵检测基于CNN算法,可实现对人体的精准检测与识别,以及对人员的目标跟踪。...在实际检测时,经历了以下几个过程:1)对视频图像进行分析;2)提取视频图像中的运动目标;3)判断运动目标是否进入指定区域的周界;4)当判断运动目标进入指定区域的周界时,便向监控平台发出报警信息;5)同时传输该区域的视频图像实时在显示屏上进行显示...结合实际应用场景的案例来说,将内置有人员入侵算法的AI摄像机部署在需要监控的区域,当有可疑人员进入监测范围内可对其自动检测与识别。

    1.4K20

    基于视频技术与AI检测算法的体育场馆远程视频智能化监控方案

    同时,物品丢失、人力巡逻成本问题突出,体育场馆在给居民提供运动场地的同时,还需特别关注场馆内人员的人身和财产安全以及运动器械的可靠性。...二、方案介绍基于体育场馆的监管需求,利用视频监控系统EasyCVR平台与AI智能分析网关,通过远程视频监控技术与AI智能检测技术,对实时视频流进行检测与分析,可以及时发现非法入侵、人员打架、倒地、抽烟、...以及停车场管理等,有利于实现对体育场馆的智能化监管。...三、系统功能1、AI智能检测周界入侵:自动检测警戒围墙区域是否有人员靠近、翻越行为,若有则触发告警;行为识别:自动检测场馆内人员的打架、异常聚集、人员倒地、攀爬等行为;抽烟识别:自动检测人员的抽烟行为,...,也支持标准的API开发接口,支持电脑、手机、电视墙等终端设备播放监控视频,也可以集成至移动端APP、小程序、其他业务平台播放,十分方便工作人员的监管工作。

    32730

    OpenCV视频后期防抖实战

    由于广大用户不可能全都具备专业素质和专业器材,其产出的视频往往质量较差,最明显的特征就是存在抖动。 减少视频抖动有很多方法,包括 1. 使用专业摄影辅助器材,如三脚架 2....然而这些方法都各自存在缺陷。辅助器材笨重、不便携,成本较高;物理防抖设备成本较高;软件防抖对硬件性能要求较高,且会使镜头移动时有一种“笨重”感,体验不佳;软件后期防抖则只有专业人士才能进行。...算法流程 运动分析 视频抖动的本质是图像存在着微小、方向随机、频率较高的运动。首先要检测到图像帧与帧之间的运动方向。 角点检测 图像中的任何一个物体都通常含有独特的特征,但往往由大量的像素点构成。...image.png 光流 由于目标对象或者摄像机的移动造成的图像对象在连续两帧图像中的移动被称为光流。它是一个2D向量场,可以用来显示一个点从第一帧图像到第二帧图像之间的移动。...但在视频防抖需求中,我们需要关心的只有3个信息:水平位移、竖直位移和旋转角度。从矩阵中抽出相应的值,可以得到如下运动轨迹曲线。曲线中大量的“毛刺”就是我们要消除的抖动。

    4.7K10

    今晚,为梅西和莫德里奇熬夜!这个CV模型,让你猜球必赢

    他从Kaggle的德甲数据大战中快速下载了几十个简短的足球比赛视频,并将预训练模型用于测试。...在这个模型上,仅仅在几个视频帧上能检测到球,因为数量太少,模型无法可靠地跟踪如此小且快速移动的物体。 另一方面,这个模型会检测到场外的许多冗余对象——教练、球迷、维修人员、摄像人员等。...但不幸的是,可能是由于分类不平衡,该模型在检测goalkeeper类时仍然存在问题。 于是,在接下来,Skalski将每个守门员都视为一名普通的足球运动员。...第3步:跟踪对象 Skalski使用的是ByteTRACK(SOTA多对象跟踪器之一)来跟踪视频中的对象。 ByteTRACK在内部并不使用任何神经网络。...有严谨的网友询问道:「这个脚本是否只适用于一个固定的摄像机角度,比如从覆盖整个地面的一侧?可不可以用在其他摄像角度上,例如对3-4位球员进行对焦拍摄。」

    35840

    你们还在做2D的物体检测吗?谷歌已经开始玩转 3D 了

    单个图像的 3D 物体检测。MediaPipe Objectron在移动设备上实时确定日常对象的位置、方位和大小。...该工具使用分屏视图显示 2D 视频帧,其中左侧放置3D边框,右侧显示3D点云、摄像机位置和检测到的平面视图。标注者以3D 视图来绘制3D 边框,并通过查看其在2D 视频帧中的投影来检验其位置。...针对静态物体,只需要在单个帧中标注物体,然后利用AR 对话数据中真实的摄像机姿势信息将其位置传送到所有帧中,从而提高整个流程的效率。 3D物体检测的真实世界数据标注。...谷歌提出的新方法,叫做AR 合成数据生成(AR Synthetic Data Generation),将虚拟物体放置到已有 AR 会话数据的场景中,可以利用摄像机姿势、检测到的平面以及估计的照明情况来生成物理世界中可能存在以及照明条件能够与场景匹配的位置...减少抖动 为了提高移动设备pipeline,每隔几帧只运行一次模型推理。另外,所采用的预测方法是实时运动跟踪和运动静止跟踪的结合,当做出新预测时候,会将检测结果和跟踪结果合并。

    1K20

    使用网络摄像头和Python中的OpenCV构建运动检测器(Translate)

    本期我们将学习如何使用OpenCV实现运动检测 运动检测是指检测物体相对于周围环境的位置是否发生了变化。接下来,让我们一起使用Python实现一个运动检测器应用程序吧!...想要实现该运动检测器程序我们需要具备以下条件: 1)硬件要求:装有网络摄像机或任何类型摄像机的计算机。 2)软件需求:Pyhton3或者更高版本。 3)附加要求:对运动检测有一定的兴趣。...接下来我们将一步步的完成该应用程序的构建。 首先,我们将通过网络摄像头捕获第一帧,并将它视为基准帧,如下图所示。通过计算该基准帧中的对象与新帧对象之间的相位差来检测运动。...在下面的代码中,我们将会了解到在什么时候需要使用上面涉及到的每一项。 第三步:使用网络摄像机捕获视频帧: ? 在OpenCV中有能够打开相机并捕获视频帧的内置函数。...第一帧是整个处理过程中的基准帧。通过计算此基准帧与新帧之间特定对象的相位差来检测运动。在拍摄第一帧时,特定对象相机前不应有任何移动。

    2.9K40

    背景提取算法——帧间差分法、背景差分法、ViBe算法、ViBe+算法

    因为摄像机不动,因此图像中的每个像素点都有一个对应的背景值,在一段时间内,这个背景值是比较固定的。背景提取的目标就是根据视频图像序列,找出图像中每一点的背景值。 背景提取有很多算法。...针对静止摄像机的帧间差分法、高斯背景差分法、ViBe背景提取算法以及它的改进算法ViBe+,还有针对运动摄像机的光流法等。...本文针对静止摄像机的背景提取算法进行讲解,主要讲解帧间差分法、背景差分法,ViBe算法,以及ViBe+算法。...Vibe的背景模型相似度匹配函数只与判断像素点与历史样本值是否相近的阈值R,以及判断前景点的阈值T有关(具体见本文三.2.(3))。...阴影的存在导致检测出来的运动目标形状不准确,影响后续目标分类、跟踪、识别和分析等其他智能视频处理模块。

    9.9K110

    学习—用 Python 和 OpenCV 检测和跟踪运动对象

    在运动检测中,做出如下的假设: 我们视频流中的背景在连续的视频帧内,多数时候应该是静止不变的,因此如果我们可以建立背景模型,我们的就可以监视到显著的变化。...如果发生了显著的变化,我们就可以检测到它——通常这些变化和我们视频中的运动有关。...第一个,--video,是可选的。它会指定一个路径,指向一个预先录制好的视频文件,我们可以检测该视频中的运动。如果你不提供视频的路径,那么OpenCV会从你的摄像头中来检测运动。...在实际中,这些小区域并不是实际的运动——所以我们定义一个最小的尺寸来对付和过滤掉这些假阳性(false-positives)结果。 15-21行获取一个我们摄像机对象的引用。...我们同样会更新text状态字符串来表示这个房间”被占领“(Occupied)了 11-13行显示了我的工作成果,运行我们可以在视频中看到是否检测到了运动,使用帧差值和阀值图像我们可以调试我们的脚本。

    3K10

    18岁NIPS Workshop一作,用目标检测评估手术技能点

    Jin 改进了一些目标检测技术,将其应用于外科手术。她表示,「总的想法是,如果我们可以追踪、识别视频中的工具,我们就能更好地分析工具使用模式及其移动。」 为简单起见,研究人员主要聚焦胆囊切除手术。...而在另一段视频中,一名外科医生多用了一个夹子并努力将其放在适当的位置,之后又花了些时间将其弄开。计算机不仅通过查看器械的放置位置和路径,还通过查看手术持续时间来检测技能水平的差异。...本研究介绍了一种自动评估外科医生表现的方法,该方法主要通过基于区域的卷积神经网络自动追踪和分析手术视频中的工具运动而完成。...虽然以前的方法已经解决了工具的存在性检测问题,但我们的方法是第一种不仅能够检测工具的存在性,还能在实际的腹腔镜手术视频中对手术工具进行空间定位的方法。...我们的实验表明该方法既能高效地检测手术工具的空间界限,同时显著优于现有的工具存在性检测方法。我们进一步证明了该方法通过分析手术工具的使用模式、作业范围和作业有效性来评估外科手术质量的能力。

    57730

    拥挤场景中的稳健帧间旋转估计

    主要贡献 摄像机运动估计是相对位姿估计的一种受限版本,仅使用两个视图,受到以下约束:(a)空间上接近,(b)时间上接近,(c)来自同一摄像机,这与移动摄像机视频中相邻帧的情况相匹配。...虽然有快速而准确的运动估计解决方案,但它们对场景中的移动物体非常敏感,而在场景中有大量移动物体时经常发生故障。...但直接法也是有一些问题,例如光照变化引起的挑战以及在处理移动物体时的性能下降。此外,提到了一些处理运动估计中的异常值和噪声的强健方法,包括使用损失函数、梯度下降、Hough Transform等。...然而,在现实世界的视频中,光流还受到平移、运动物体和噪声的影响。通常不存在与所有光流矢量兼容的单一旋转。...该数据集的目标是评估在密集且动态的场景中,具有许多移动对象和复杂相机运动的相机旋转估计算法的稳健性。

    17110

    论文翻译:ViBe+算法(ViBe算法的改进版本)

    检测到摄像机移动的情况,我们跟踪若干在第一帧中用Kanade-Lucase-Tomasi光流法检测到的特征,并逐帧检测是否大多数特征仍然保留。...然后将存在一个对视频最初100帧的投票,决定这是否摄像机的整体移动现象。更多的细节在4.2节中介绍。...如果至少一半被追踪的特征是静态的,那么一帧被认为是静止的。测试程序运行超过了视频序列最开始的100帧,我们投票决定摄像机是否存在抖动现象。...如果摄像机存在抖动现象,那么剩下来的视频序列中更新因子减小至1.对于这种简单处理,我们观察摄影机抖动数据集(即camera jitter)所有视频帧,检测结果都是移动摄像机。...其他所有视频都被检测为静止摄像机。 3. 结果与讨论 这篇文章中,我们基于原始算法提出了很多改变。

    3.2K90

    应用||USB-5800用于智能巡检机器人

    前端设备:是整个机器人系统的移动载体和信息采集控制载体,主要包括移动车体, 移动体运动控制系统、通信系统以及由可见光图像摄像机,红外图像摄像机和声音探测器 等组成的电站设备检测系统。...移动体控制与检测系统 机器人系统主要包括移动体运动控制子系统和检测子系统两大部分,移动体运动控制子系统硬件由 CPU运算单元、运动控制单元和IO控制和检测单元组成, 负责机器人在巡检过程中的运动行为。...检测子系统由红外测温仪和可见光摄像机等装置组成, 完成变电站设备外观图像和内部温度信息的采集。 变电站检测系统搭建了远程在线式红外热像仪系统,可见光图像采集处理系统,声音采集处理系统。...可见光图像,红外图像通过视频服务器的视频流数据和移动体控制系统信息等数据汇集到网络集线器后, 经无线网桥, 网络集线器一起通过内部网络传到运行监控终端, 通过连接到局域网上的计算机可根据访问权限实时测览变电站设备的可见光和红外视频图像..., 机器人本身运行情况等相关信息, 并且可以控制机器人移动体的运动等。

    55720

    MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建

    ,该方案可在动态环境中根据单个移动摄像机预测深度图。...MaskModule能够识别运动像素并降低成本量中的相应体素。因此,与其他MVS方法相比,MonoRec不受移动物体上的伪影的影响,因此可提供静态和动态物体的准确深度估计。...运动对象深度估计的比较:与其他MVS方法相比,MonoRec能够预测可能的深度。...为了处理室外场景中常见的动态对象,提出了一种新颖的MaskModule,它可以根据输入成本量预测移动对象mask。使用预测的mask,使用提出的DepthModule能够估计静态和动态对象的准确深度。...这种从单个移动摄像机中恢复准确的3D稠密点云的能力将有助于将摄像机确立为智能系统的先导传感器。 本文仅做学术分享,如有侵权,请联系删文。

    1.2K20

    使用ARKit开发AR游戏-基础篇:ARKit入门篇

    运行的AR会话连续从设备摄像机捕获视频帧(Frame)。对于每一帧,ARKit会将图像与来自设备的运动感应硬件的数据一起分析,以估计设备的现实位置和方向。...ARKit以ARFrame对象的形式提供跟踪信息和成像参数。 摄像机的采集速度大约30次/秒,主要提供运动信息的更新;运动感应硬件采集速度大约几千次,主要负责旋转信息的更新。...从设备摄像机读取视频          UnityARCameraNearFar.cs 更新far和near clipping plane 场景的对象          GeneratePlane.cs...获取所需结果后,禁用平面检测 平面检测需要的计算量更大。因为放置在场景中的对象不需要一直做平面检测,所以在获得结果以后可以禁用平面检测。...使用真实世界大小          Unity中的1个单位表示一米,在放置对象和创作内容时需要考虑到这一点。 考虑对象交互 沿着放置的平面移动物体。

    4.5K51

    ARKit

    ARKit结合了设备运动跟踪,摄像机场景捕捉,高级场景处理和显示便利性,简化了构建AR体验的任务。您可以使用这些技术使用iOS设备的后置摄像头或前置摄像头创建多种AR体验。...世界跟踪还提供使AR体验更具沉浸感的功能,例如识别用户环境中的对象和图像以及响应真实世界的光照条件。 注意 您可以在用户的​​真实环境中显示3D对象,而无需构建自定义AR体验。...class ARWorldTrackingConfiguration 使用后置摄像头的配置,跟踪设备的方向和位置,并检测真实世界的表面,以及已知的图像或对象。...物体检测 使用用户环境中的已知3D对象来增强世界跟踪AR会话。 扫描和检测3D对象 记录现实世界对象的空间特征,然后使用结果在用户环境中查找这些对象并触发AR内容。...class ARCamera 有关AR会话中捕获的视频帧的摄像机位置和成像特征的信息。 class ARLightEstimate 与AR会话中捕获的视频帧相关联的估计场景照明信息。

    2.2K20

    建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日

    哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景…… 上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。...研究人员将这个艺术加工过程分解成 3 个任务:天空抠图(sky matting)、运动估计和图像融合,并在智能手机和行车记录仪在户外采集到的视频上进行了实验,结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性...usp=sharing 方法 下图概述了该研究提出的方法,它由 3 个模块组成:天空抠图网络、运动估计算法以及 skybox。 天空抠图网络用来检测视频帧中的天空区域。...运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。...局限性 该方法也存在一些局限性。 首先,天空抠图网络仅基于白天的图像训练,因此该方法可能无法检测夜晚视频中的天空区域。

    33210
    领券