展开

关键词

对标苹果,中国CV独角兽亮出3D+AI秘密武器

苹果引领了3D视觉+AI的潮流,旷视对标苹果,整合技术、构建完整产业链,发布“软硬一体”的移动端3D感知全栈解决方案。?旷视要对标苹果。 2018年iPhone或全配置Face ID,安卓阵营跟进3D视觉+AI算法2017年,苹果iPhone X引领了安卓阵营的几个潮流:全面屏、AI芯片和人脸解锁。 对标苹果,旷视发布“软硬一体”3D感知全栈解决方案 AI+3D视觉也是国内计算机视觉的下一个爆发赛道。 2、3D一定要跟智能化结合起来,AI+3D一定是非常大的杀手级应用场景。 现在,像AI Camera拍张照片,机器识别理解蓝天、草地,加上3D的物理信息,一定会做出非常好非常酷的拍照效果,AI+3D一定是个方向。3、随时随地的产品。

18620

「克隆」新华社女记者,全球首个3D AI合成主播是如何炼成的?

搜狗 3D AI 主播又何以做到逼真?栩栩如生的形象之下,它还是一个完全由 AI 算法实时驱动的 3D 数字人。这和那些游戏影视中依靠美术师逐帧勾画的 3D 动画人有本质不同。 二、完全 AI 驱动的 3D 数字人 随着游戏、影视的发展,逼真的 3D 数字人似乎早已存在,搜狗为何敢号称是全球首个 3D AI 合成主播? 仔细观察你会发现,3D AI 合成主播和 3D 数字人有着本质不同,前者是完全基于 AI 算法实现驱动,而非人工驱动。 AI 技术的加持,使 3D AI 合成主播在产出视频上成本更低、效率更高。而在 3D 设计中,制作一个小时完整的 3D 写实度视频,除了耗费大量时间外,往往要花费成百上千万人民币。 陈伟称,搜狗会在 2D、3D 技术上一起往前推进。从 2D AI 合成主播到 3D AI 合成主播,从表达式到对话交互,搜狗分身正在不断进化。

27210
  • 广告
    关闭

    90+款云产品免费体验

    提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AI + 3D!英伟达开源3D深度学习框架Kaolin

    点击我爱计算机视觉标星,更快获取CVML新技术----3D计算机视觉在医学影像、自动驾驶、机器人深度感知、视频游戏、虚拟和增强现实中有重要应用。 近日,英伟达新开源了kaolin深度学习框架,旨在加速3D计算机视觉的研究。其基于PyTorch实现,包括主流3D视觉数据表示的读取和3D计算机视觉的可微分模块。 将大大降低3D计算机视觉研究的进入门槛。 ? Kaolin支持的3D计算机视觉任务:? 可微分渲染;单图像的mesh重建;点云分类与分割;Mesh 分类与分割;voxel grids上的3D超分辨率;一些基础图形功能;不仅如此,Kaolin还实现了大量state-of-the-art的3D

    27210

    旷视发布3D感知全栈解决方案!现在,AI+3D只差杀手级应用了

    旷视者,大视觉之谓也,现在更能显出这家AI独角兽的抱负和野心了。就在昨天(8月8日),旷视发起了一场“3D视觉产业先锋研讨会”,并正式对外推出了“软硬一体”的移动端3D感知全栈解决方案。? 从算法、应用开发、芯片、摄像硬件、传感设备到解决方案,现在万事俱备,只待AI加速下的3D视觉迎来杀手级应用的爆发。 作为此次“AI+3D”研讨的召集人,旷视也请到了几家合作伙伴及开发者,分享了具体实践。? 总之,AI+3D视觉,看起来路通桥建,渠也通畅。但不意味着发展没有挑战。缺组织者最大的挑战在于组织者缺乏。在研讨会现场,嘉宾们被问及AI+3D视觉的“杀手级”应用何时能到来。 △ 旷视高级副总裁吴文昊 于是时也运也,旷视决定将“AI+3D”的生态平台组织、维护和应用创新引导,揽责任于自身。

    21620

    专访 - Sensory CEO Todd Mozer - AI, 3D人脸识别以及其他

    Sensory Inc.作为向全球移动设备提供先进的复杂生物识别算法的供应商,于近期展示了其采用面部和声音识别算法的AI虚拟银行助理技术。 以下为demo视频 - Sensory于近期更新了其TrulySecure平台至4.0版本,支持3D面部识别和增强AI系统,比传统的2D面部识别的准确率提升了50%。? 在面部生物识别部分,我们增加了对3D Camera的支持。 事实上,Sensory是一间设备端AI技术公司(On-device company),所有Sensory的技术方案都是边缘侧设备端的。 刚才提到的3D Camera,在Face ID时代是否有强烈的用户需求?TM(Todd Mozer) - 当然!

    32420

    三星3D版「AI上色」算法:神经网络实时渲染真实视频

    渲染图像的流程如下:首先使用普通的摄像机扫描目标,使用普通的软件(如 Agisoft Metashape)生成 3D 点云,将点云和视频输入神经网络,这样就可以渲染目标图片了。 图 1:给定从 RGBD 图像中生成的点云(顶部),这一算法可以为每个点学习神经描述器(伪色处理后的 3D 点云图像,在中间一行),而神经渲染网络可以将栅格化的点描述器映射成真实图像(底部)。 图 2:系统总体结构的概念,它会给 3D 点云「上色」,并通过神经网络生成渲染结果。具体而言,如上所示模型会在给定点云 P、神经描述器 D 和相机参数 C 的情况下估计方向的视角。

    41020

    只要做出角色3D模型,AI就能让它动起来!再也不怕3D动画拖更了丨SIGGRAPH 2020

    郭一璞 发自 云凹非寺量子位 报道 | 公众号 QbitAI一只3D的狗头卡通角色:?给它画上骨架:?诶?就可以动起来了:?同样的方法,也可以让3D小男孩动起来:?让3D高挑大姐姐动起来:? 让3D猫猫活蹦乱跳:?总之,一切原本应该只是静态的3D角色模型,不管是人是动物,还是自然界不存在的卡通创意角色,都能见皮知骨,由静到动:???连影子都配合的非常好! 这一切,都是一个叫做RigNet的AI自动完成的。只要设计好角色的3D动态外形,它就可以自动预测角色骨架,预估骨架外皮肤的重量,生成角色运动的图像。 这可比人工制作动画方便多了,要是能用在3D动画或者3D游戏制作上,以后就不用担心拖更或跳票了呢。这项研究也登上了SIGGRAPH 2020,作者来自马萨诸塞大学阿默斯特分校和多伦多大学。? 多网络合作实现AI3D角色动起来,需要经历两个步骤:先是确定骨骼的位置,再预测骨架之外皮肤的重量。骨骼是有关节、会转动的,因此AI预测的时候也要先找到那些关节。

    31330

    普通人也能用AI拍出3D大片?这位清华博士后这么做

    从《阿凡达》到《流浪地球》,从好莱坞科幻 3D 电影之最到中国科幻 3D 电影之最,从 2009 年到 2019 年,近十年的岁月,见证了中国 3D 影视制作的快速成长和繁盛,也刺激着赵天奇探索人工智能与影视制作结合应用的信心 北邮读博期间,他创立了一家名为十二维度的公司,定位于数字图像及 AI3D 影视方面的应用,当时,VR 市场的火爆让 3D 找到了最佳落地方向,但他并不满足,在赵天奇的带领下,2016 年,科幻成真实验室首个人工智能 传统的 3D 内容制作技术主要有两种:一种是 3D 双机实拍,一种就是 2D 后期转 3D,但仍需要耗费巨大的资金、人力和时间成本。 而技术的瓶颈直接导致 3D 内容的匮乏,目前国产 3D 电影呈扎堆之势,但成熟者却不多。那么,将 2D 视频渲染成 3D 有哪些技术难点? 当然,AI 算法只是意味着开了个好头,真正考验的是创新企业如何结合自身业务将算法进行商业落地。要知道,AI 的实际技术门槛很高,在发展过程中,真正的 AI 公司也可能遇到数据和技术的挑战。

    22920

    玩转3D全息图像!AI即刻生成

    该团队称之为“张量全息术”,并认为该方法可能会推动全息技术向VR和3D打印等领域的延伸。 训练神经网络通常需要庞大的高质量数据集,而3D全息图以前没有这种数据集。 研究人员创建的数据集具有三个重要功能,以使CNN能够学习逼真的3D全息图。 实时3D全息技术的应用将会惠及从VR到3D打印的众多系统,研究人员表示,该种新系统可以帮助VR观看者沉浸在更真实的风景中,同时消除长期使用VR带来的眼睛疲劳和其他副作用。 同时,三维全息术还可以促进3D打印技术的发展,该技术比传统的逐层3D打印更快、更精确,因为该项技术允许同时投影整个3D图形。

    28220

    巴黎圣母院请让AI3D打印来守护最后的文明瑰宝

    AI技术的驱动下,卫星可对山林等的野火风险地图进行精确绘制,在火灾发生前数小时发出警报,将火苗扼杀在初始阶段。 用AI3D打印重建巴黎圣母院,让文明不断流虽然马克龙承诺将重建巴黎圣母院,实际上烧毁重建难度极大,且可以预见重建时间将会非常长。那么,巴黎圣母院近900年的文明就要因此断流数十年吗? 其实我们可以用AI3D打印技术重建将这一“断层”衔接起来。此前,艺术史学家为了精确了解圣母院内部结构,用激光扫描技术,通过对圣母院内外的50位置进行定点来收集数据。 基于此以及此前所留存的图片、影像资料,利用AI3D打印等技术,复原工作难度将大大降低。仍以故宫为例,单霁翔曾经用“AI重启紫禁城”来表达科技对建筑及文物的复原和保护意义。 而文物保护及复原方面,故宫则成立了一个“智能医院”,配备了3D打印、物理冷热性能等设备,为文物“做CT”,并与原有修复技术进行叠加,效率瞬时提升。

    15610

    NVIDIA构建了一个可以从2D图像创建3D模型的AI

    编辑 | KING发布 | ATYUN订阅号 想要把一张照片变成一个完整的3D模型,你可以利用3D打印机进行打印,或者从一堆图像中进行数字建模,以便在电影中能够达到栩栩如生的视觉效果。 但是Nvidia已经成功地训练了神经网络,可以仅基于一张照片生成完全纹理化的3D模型。 DIB-R也可称为可微分的基于插值的渲染器,这意味着它将其“看到的”内容与2D图像进行组合,并基于对世界的3D“了解”进行推理。这与人类将我们眼睛的2D输入转换为3D心理图像的方式极为相似。 Nvidia的研究人员在多个数据集上训练了他们的DIB-R神经网络,其中包括以前变成3D模型的图片,从多个角度呈现的3D模型以及从多个角度聚焦于特定主题的图片集。 团队希望有一天,这样的系统将使AI能够仅使用照片在毫秒内创建完全沉浸式3D世界。

    59920

    DeepMind新论文:3D环境中教AI学人话,还要用形式语言指挥它们

    3D World,另一篇,是关于用形式语言指挥AI智能体行动的Programmable Agents。 我们先说说AI学语言这件事。想想我们每天的生活,AI帮我们做了越来越多的决定,小到看哪些新闻,大到该买什么股票。甚至有时候,还会让AI直接替我们采取行动。 但是,让AI学会接地气的语言很难。DeepMind这篇论文描述了一个新方法:把agent放在一个虚拟3D环境中,如果它成功地正确执行了用人类语言写成的指令,就给奖励。 关于具体的训练过程和原理,请移步论文:Grounded Language Learning in a Simulated 3D Worldhttps:arxiv.orgpdf1706.06551.pdf Jaderberg, Denis Teplyashin, Marcus Wainwright, Chris Apps, Demis Hassabis, Phil Blunsom上文提到的训练方法,是在一个3D

    44540

    用音频数据补充视觉信息,帮助AI3D迷宫中导航

    初步结果表明,这种方法可以提高智能体在3D迷宫中完成目标的能力。 研究人员使AI采用深度Q网络的形式,这种模型可以灵活地处理不同类型的数据(即图像像素和音频),并且已经成功应用于Atari游戏。

    20020

    不会累、不会失误,逼真得不像AI

    这个AI合成主播就可以——坐姿、站姿零失误播报是基操,而且还是3D,360度取景也hold得住。 image.png 这就是搜狗分身最新的技术进展——基于AI算法实现实时驱动,打造高逼真、高灵活、高可控的3D AI合成主播。“新小微”的诞生过程我们先近距离观察一下新小微的细节。 image.png 其次,是3D数字人驱动方式、成本、效率不同,这一点格外重要。3D AI合成主播靠AI算法实时驱动,输入一个文本就能输出一个视频或者视频流。 而随着数字人这一概念的兴起,搜狗基于已有的AI技术,与3D技术相结合,便推出了此次的3D AI合成主播。 二者是处于“搜狗分身”体系下的并行发展路线,正如在量子位采访过程中,搜狗AI交互技术部总经理陈伟表示:2D的写实度比3D略高一些,但是3D的灵活性更高一点。

    16920

    「全球首个」3D 合成主播参与新华社两会报道,纯AI驱动一分钟出活,无需人工干预

    ---- 新智元原创 编辑:白峰、鹏飞【新智元导读】两会期间,一个AI生成的3D虚拟主播火了:输入文字,AI就能生成一个逼真3D数字人,口型精准、表情到位的将新闻播报出来。 全球「首个」3D AI合成主播:实时多景深切机位,业内第一家当然了,「全球首个3D AI合成主播」的称号可不是随随便便就能叫的。 搜狗3D AI合成主播经受住了这次严峻的考验,在以下5个方面展现了过人的实力。 纯AI模型,效果远超传统3D建模技术「搜狗分身」的AI硬实力,为传统的3D技术创造了无限的想象空间。传统写实类的3D模型,很多是采用blendshape或骨骼动画去做的。 那么搜狗的3D AI合成主播是如何实现的呢?

    41530

    镁客请讲 | 知北信息杨眉:精准定位口腔诊疗行业痼疾,合AI3D打印之力去变革优化

    人工智能、大数据、3D打印等新兴技术逐渐渗入医疗领域,医疗辅助诊断、电子病历、诊疗一体化平台、机器人协助伤检分类等应用涌现。 然而,事实是,AI不足以支撑智能交互,众多医疗细分领域数据难以获取等问题也随之而来,医疗数字化进程处处碰壁,无法进一步推进,因此一度进入低迷期。 AI加持3D打印解决诊疗过程疑难杂症因此,存在信息互通效率低、资源分散、用户体验差等问题的口腔行业就格外欢迎数字化浪潮的“洗礼”。 但仅做好数据采集到订单生成派达工厂的整个云平台,杨眉并不满足,“我们还和比较大的工厂合作,帮他们打造专门的3D打印中心,由此切入数字化义齿产品供应链,这是我们整个平台上的关键一环。” 众所周知,目前,3D打印技术最为成熟的应用就是医疗领域,因精准度高,它在器官打印的使用上让用户的体验有了质的飞跃,让救治的效率大大提高,义齿领域也不例外。

    18010

    GPU在计算机架构的新黄金时代还会继续闪耀吗?

    如今,我们看到行业中涌现了大批 AI DSA 而非 GPGPU,前者试图凭借更好的性能来取代 GPU。甚至 GPU 本身也挣扎在它的双重属性,AI DSA 和 3D DSA 之间。 原因是 AI DSA 需要加速张量运算,这在 AI 中是很常见的运算,但在 3D 世界中是没有的。同时,为 3D 用途准备的固定功能硬件对 AI 来说一般是不需要的。 GPU 是否会分成两种 DSA,一种用于 AI,另一种用于 3D?我的预测如下:GPU 硬件 软件接口将维持 GPU 作为 AI 世界“CPU”的地位。 如果基于 AI 的后处理成为主流,张量加速将成为 GPU 在 3D 用途上的支柱。GPU 分化为 3D DSA 和 AI DSA 的可能性也会下降。 此外,新的框架通过以下方式重新定义了 3DAI3D 渲染成为 AI 训练循环中必不可少的操作训练,或“梯度下降”,过去只出现在云中的神经网络训练过程,现在则是推理的一部分。

    7920

    OPPO Find X,一款(可能)被全面屏“耽搁”了的AI手机

    以及一个OPPO打造的3D结构光模组,官方称之为“OPPO FaceKey 3D结构光技术”,这也正是OPPO在手机视觉上从2D进入3D的关键所在。? 当然,OPPO FaceKey 3D结构光技术最喜闻乐见的应用莫过于:3D个性美颜。 AI摄影拍人之外,OPPO Find X还将AI算法带到了更多摄影场景中,目前Find X可以识别21类独立场景,共计800个场景组合。? AI系统更富全局性的是,OPPO Find X搭载的还是高通最新的骁龙845芯片,包含了高通面向移动AI推出的AIE神经网络处理单元。 总之,AI加持的相机已不再是单纯的相机了,而AI加持下的手机,也肯定会在经验外观之下,让用户体验实现质的不同。正所谓:始于颜值,忠于AI

    28620

    英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?

    另外,他们还发布了一个新的 Omniverse 扩展,命名为 GANverse3D – Image2Car ,它能够利用 AI 的机制,使3D建模变得更容易。 这个过程可以将汽车的单张照片变成可以在虚拟场景中行驶的 3D 模型,并配有逼真的前灯、闪光灯和车轮。GANverse3D 是包含在 AI Toy Box 的拓展集合中的一个程序。 AI Toy Box 扩展允许没有经验的 3D 开发者轻松创建场景,为经验丰富的用户提供多应用程序中的新经验。 第 3 代 Tensor Cores ,它为AI 创造功能提供动力和加速支持。2 个 PCIe Gen 4 和 6GB 的 GPU ECC 内存,用于 3D 渲染和导出大文件。 Topaz Sharpen AI v3.2 改进了由 RTX GPU 和 Tensor Cores 加速的 AI 模型,增加了 1.5 倍运动模糊的功能,进一步减少了伪影。

    13720

    FaceBook开源体现AI平台AI Habitat

    脸书最近开源了体现AI(embodied AI)平台AI Habitat,这是一个模拟平台,专供研究人员在逼真的3D环境中训练诸如虚拟机器人等体现代理人,而且可结合同样来自脸书的Replica,或是第三方的 Gibson与Matterport3D等3D环境资料集。 AI Habitat平台是由Habitat-Sim、Habitat-API及Habitat Challenge等3个元件所组成,其中的Habitat-Sim是个3D模拟器,具备可配置的代理人、感应器,也能处理各种 3D场景资料集,单执行绪即可达到数千FPS,若是在单个GPU上的多程序,则能超过1万FPS。 可用来搭配AI Habitat的Replica则是一个3D环境重建资料集,主要蒐集了各种室内空间,标榜画面有如照片般栩栩如生,目前的版本只有18个场景,包括不同格局及摆设的公寓、办公室及房间等。

    51840

    扫码关注云+社区

    领取腾讯云代金券