点击我爱计算机视觉标星,更快获取CVML新技术 ---- 3D计算机视觉在医学影像、自动驾驶、机器人深度感知、视频游戏、虚拟和增强现实中有重要应用。 近日,英伟达新开源了kaolin深度学习框架,旨在加速3D计算机视觉的研究。其基于PyTorch实现,包括主流3D视觉数据表示的读取和3D计算机视觉的可微分模块。 将大大降低3D计算机视觉研究的进入门槛。 ? Kaolin 实现了可微分的 rendering, lighting, shading, and view warping,同时也支持常见的损失函数和度量标准,也可于计算后无缝渲染3D结果。 Kaolin支持的3D计算机视觉任务: ?
之前,我们提到了【两分钟论文#161】AI创建用户界面,前端将失业?神器pix2code!搞得前端界人心惶惶。现在告诉前端界一个好消息,You are not alone! 3D建模领域未来也将被彻底颠覆! ? 各位同学大家好,又到了我们的「两分钟AI小课堂」。 今天我们来讲一下AI,尤其是DNN在3D建模中的应用。 通过照片和图像来还原3D模型是一个大胆的想法,之前也有许多人做过相关研究。 MIT的研究者们采用了3D-GAN网络来通过图片生成3D模型。 到时候,平面设计师还是3D建模师的工作量都会大大减轻! ? MIT的这篇文章研究3D对象生成的问题。 CAD模型的情况下对样本进行采样,并探索3D对象流形; 第三,对抗鉴别器提供了一个强大的3D形状描述符,它在没有监督的情况下学习,在3D对象识别中有广泛的应用。
领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折
开源的假图只给了70个2d点,不给模型) [2022,微软] 3D face reconstruction with dense landmarks(直接完全沿用了自家2021的数据,没有任何改进,不给模型 开源了但不给点) [2018,上交/云从] Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network (没细看) [2015,中科院] Face alignment across large poses: A 3d solution(没细看) semi-automatic refined data(半3dmm 半手动) [2016,CMU] Dense 3D face alignment from 2D videos in real-time(没细看) [2019,谷歌] Real-time facial surface
该团队称之为“张量全息术”,并认为该方法可能会推动全息技术向VR和3D打印等领域的延伸。 训练神经网络通常需要庞大的高质量数据集,而3D全息图以前没有这种数据集。 研究人员创建的数据集具有三个重要功能,以使CNN能够学习逼真的3D全息图。 实时3D全息技术的应用将会惠及从VR到3D打印的众多系统,研究人员表示,该种新系统可以帮助VR观看者沉浸在更真实的风景中,同时消除长期使用VR带来的眼睛疲劳和其他副作用。 同时,三维全息术还可以促进3D打印技术的发展,该技术比传统的逐层3D打印更快、更精确,因为该项技术允许同时投影整个3D图形。
整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景。 近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。 2021 年末时,谷歌通过 Dream Fields 首次展示了 3D AI 生成系统,将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。 苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。 例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。 Apple GAUDI 是 3D 内饰专家 虽然谷歌致力于使用 Dream Fields 生成单个对象,但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。
选自Facebook AI 作者:Georgia Gkioxari、Shubham Tulsiani、David Novotny 参与:魔王 Facebook 的博客详细介绍了其在 3D 内容理解领域的研究进展 要想解释现实世界,AI 系统必须理解三维视觉场景。而这需要机器人学、导航,甚至增强现实应用等等。 计算机视觉领域覆盖大量任务,而 3D 理解将对推进 AI 系统更准确地理解、解释现实世界并在其中运行起到核心作用。 当 AI 系统与其他感官结合起来时,如触觉和自然语言理解,这些系统(如虚拟助手)可以更加无缝地发挥作用。这一前沿研究帮助我们向着构建和人类一样更直观理解三维世界的 AI 系统更进了一步。 原文链接:https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/ 本文为机器之心编译,转载请联系本公众号获得授权
3D 内容对于元宇宙至关重要,很多科技公司正在推出用于构建虚拟世界的工具,随着计算机图形技术、元宇宙和 AI 之间的交集越来越多,这些技术也在不断升级。 通过 AI 能力用 2D 照片生成 3D 模型,是人工智能学术会议中的一个热门领域,刚刚过去的国际顶会 CVPR 上就有数十篇这个方向的论文。 3D 建模,手机也行 快速构建 3D 模型的能力来自华为终端云服务开放能力合集 HMS Core,其拥有 3D 建模、3D 引擎、AR Engine 等多个图形领域的开放服务。 高精度的几何重建需要先进行物体分割,将目标物与背景分离,并进行图像匹配、特征提取和深度估计,AI 算法通过分析不同角度的图像来判断位置关系,生成点云构建 3D 模型,再计算出纹理材质对模型表面进行贴图。 华为利用 AI 算法减少了人为规则的需求,可以支持非对称的多种姿态。 面对模型的各种姿态,AI 算法需要大量数据进行训练,但在 3D 模型重建任务上,业内其实并没有这样的数据集。
Sensory Inc.作为向全球移动设备提供先进的复杂生物识别算法的供应商,于近期展示了其采用面部和声音识别算法的AI虚拟银行助理技术。 以下为demo视频 - Sensory于近期更新了其TrulySecure平台至4.0版本,支持3D面部识别和增强AI系统,比传统的2D面部识别的准确率提升了50%。 ? 在面部生物识别部分,我们增加了对3D Camera的支持。 事实上,Sensory是一间设备端AI技术公司(On-device company),所有Sensory的技术方案都是边缘侧设备端的。 刚才提到的3D Camera,在Face ID时代是否有强烈的用户需求? TM(Todd Mozer) - 当然!
来源:新智元本文共2100字,建议阅读9分钟青海羊曲大坝建筑项目将由核心AI操控无人工程车队,用3D打印技术建造。 AI操控无人工程车队,建造羊曲大坝 该项目的首席科学家刘天云4月27日在《清华大学学报(自然科学版)》发布了相关研究论文——《大型填筑工程3D 打印技术与应用》,被多方报道时引用。 这篇论文中详细介绍了填筑工程中3D打印技术及AI和多种机器人的装备系统集成,论文中描述的此集成系统可以完全在无人干预下,由AI自行调度控制,逐层填筑,层层循环,直至完成整个填筑工程的3D打印建造。 在刘天云团队的设计下,羊曲水坝建筑工地实际上已经变成一台巨大的3D打印机,大量的无人驾驶工程车辆和设备,作为不同的打印机组件,在羊曲工程的核心AI规划下无缝地协同工作。 核心AI将3D数字模型「切片」为一系列工序,进行土石坝分期、分区、分层的3D打印过程规划。 完成这步后,核心AI会组织与调度相关的工序,优化施工方案。
但是这个新系统不仅可见,而且是一个物体:它不是通过处理数字而是通过光的衍射来执行AI类型分析。这是奇怪而独特的,但恰恰证明了人工智能系统看起来可以多么的简单易行。 但来自加州大学洛杉矶分校的研究人员表明,它实际上可以固化,这些层本身就是真正的3D打印透明材料层,印有复杂的衍射图案,这些衍射图案可以对数字进行数学处理。
---- 新智元报道 编辑:袁榭 【新智元导读】青海羊曲大坝建筑项目将由核心AI操控无人工程车队,用3D打印技术建造。 AI操控无人工程车队,建造羊曲大坝 该项目的首席科学家刘天云4月27日在《清华大学学报(自然科学版)》发布了相关研究论文——《大型填筑工程3D 打印技术与应用》,被多方报道时引用。 这篇论文中详细介绍了填筑工程中3D打印技术及AI和多种机器人的装备系统集成,论文中描述的此集成系统可以完全在无人干预下,由AI自行调度控制,逐层填筑,层层循环,直至完成整个填筑工程的3D打印建造。 在刘天云团队的设计下,羊曲水坝建筑工地实际上已经变成一台巨大的3D打印机,大量的无人驾驶工程车辆和设备,作为不同的打印机组件,在羊曲工程的核心AI规划下无缝地协同工作。 核心AI将3D数字模型「切片」为一系列工序,进行土石坝分期、分区、分层的3D打印过程规划。 完成这步后,核心AI会组织与调度相关的工序,优化施工方案。
编译 | 若名 出品 | AI科技大本营 用 AI 生成逼真三维物体模型并不像人们以为的那么困难。 AI 系统。 “我们的主要想法是将图像生成过程分解为形状、视点和纹理三种因素,”Google 团队写道,“这种分离式 3D 表示使我们能够在对抗学习框架下从 3D 和 2D 视觉数据集合中学习模型。 与现有的 2D 生成模型相比,我们的模型合成了更逼真的图像,它还可以做到以前的 2D 方法也无法实现的各种 3D 操作。” 近年来,GAN 的研究突飞猛进,特别是在机器视觉领域。 9 月, Nvidia 的研究人员开发了一种 AI 模型,可以生成脑癌的合成扫描图像,8 月,卡内基梅隆大学的一个团队 演示了 AI 可以将人们已存的动作和面部表情转换成另一张照片或视频中的目标对象。
但最近 UCLA 的研究人员研发出了一个 3D 打印 AI 分析系统。这一系统不仅看得见,还摸得着。与以往通过调节数字进行分析的系统不同,该系统通过光线的衍射来分析人工智能。 这意味着 3D 打印 AI 分析系统在训练完它的「层」后,还可以被优化,不会占用太大空间或 CPU 功率。 我们构建了 3D 打印的 D^2NN 来实现手写数字和时尚产品的图像分类,以及成像镜头在太赫兹光谱的函数。 图 2:3D 打印的衍射深度神经网络测试实验。 ? 图 3:衍射深度神经网络实现手写数字识别。 原文链接:https://techcrunch.com/2018/07/26/this-3d-printed-ai-construct-analyzes-by-bending-light/ 本文为机器之心编译
新智元报道 来源:venturebeat 编辑:向学 【新智元导读】NVIDIA的研究团队开发出一个可以在不需要任何3D训练数据的情况下预测2D图像的3D特征的AI系统。 NVIDIA的研究团队开发出一个人工智能系统,它可以在不需要任何3D训练数据的情况下,预测2D图像的3D特征。 University of Toronto)、Nvidia Research、阿尔托大学(Aalto University)共同完成,相关研究的细节呈现在论文《Learning to Predict 3D Fidler还说:“关于三维深度学习目前很多公司已经做了一些工作,如Facebook AI Research与DeepMind也能将二维转化成三维AI,但DIB-R是第一个可以通过二维图像预测几个关键的三维特征 参考资料: https://venturebeat.com/2019/12/09/nvidia-trains-ai-to-transform-2d-images-into-3d-models/
在艺术领域,AI 有着各式各样的应用,如 AI 生成音乐、AI 绘画。 跳舞,也是 AI 努力学习的一种能力。 如今,DanceNet 迎来了新的挑战者——来自谷歌的最新研究 AI Choreographer:给定一段 2 秒的指导动作,AI 模型可以按照音乐节奏生成一长段自然的舞蹈动作。 3D 运动生成所述[4,3]。 研究者利用多视角信息从数据中恢复可靠的 3D 动作。注意,虽然这个数据集具有多视角照片,但相机并未校准,这使得 3D 重建非常具有挑战性。 下表 1 对比了 AIST++ 和其他 3D 动作与舞蹈数据集,AIST++ 对于现有的 3D 动作数据集是一种补充。 ?
华盛顿大学、Facebook 和 Google 的研究人员开发了第一个端到端的深度学习系统,可以将足球比赛的 YouTube 视频转换为运动的 3D 全息图,使用AR设备就可以观看到3D全息投影的足球比赛 该网络分析了从足球视频游戏《FIFA》中提取的12000 张 2D 球员图像,以及从游戏引擎提取的相应 3D 数据,以了解两者之间的相关性。 当被展示没见过的视频时,系统能准确地预测每个球员的深度图,并将其与颜色素材结合,以3D 的方式重建每个球员。 ? 基于这些比赛视频数据,神经网络能够重构球场上的每个球员的深度图,这些图可以在3D 查看器或 AR 设备上呈现。 ? ? HoloLens 可以将 3D 重建叠加到真实的桌面上。最终的产品虽然不完美,它无法重建球,不能实时地工作,并且只允许从视频录制的球场侧面观看。
△ 死亡效应2 搭建3D人体模型,早已是AI驾(le)轻(bu)就(si)熟(shu)的一项工作,不论是在VR里,电影里,还是时尚圈。 现在,有了一个新的算法,只要有普通摄像头拍摄的单一角度的视频,就可以建立3D模型了。 ? 画出一个立体的你,需要分3步—— 首先,AI会分析一段长约几秒的视频,里面的你在运动。 基于深度学习,AI可以为你的3D形体和关节位置,做一个粗略的估计。 ? 第二步,要把每一帧里创建的虚拟人形原本的姿势去掉,让许多的你伸开手臂,把自己变成丁字形 (其实是箭头形) 。 最后,根据影像记录的头发、衣着和皮肤数据,AI会给你的模型加上色彩和质地。这样,一个生动活泼的你就出现在大屏上了。 ? 许多不同身材不同打扮、且站在不同背景之下的人类,参与了算法的测试。 △ 是,魔鬼的步伐 只要获得了你的3D复刻,就可以随意调整它的体重、穿着和姿势了。就算是完美的芭蕾舞旋转,也不在话下,原版的你可能也会有点羡慕吧。 但我只想知道,自己玩自己,是一种怎样的体验。
新智元报道 编辑:QJP 【新智元导读】来自夏威夷大学马诺阿分校天文研究所的一组天文学家在AI神经网络的帮助下,创造了迄今为止最全面的「天文学成像目录」,包括恒星、星系和类星体等。 图:15到30亿光年之间的星系,宇宙的密度图 AI辅助构建3D版「银河系漫游指南」 为了给计算机提供一个参照系,并教会它如何分辨天体类别,研究小组转向了公开的光谱测量。 更新后的3D地图还将用于研究宇宙的整体几何形状,进一步测试关于标准宇宙模型的理论,分析古代星系,以及其他许多天文学和宇宙学研究的途径。 https://gizmodo.com/new-map-of-the-universe-fills-in-some-troublesome-gap-1844440929 推荐阅读: 谷歌给听障人士按下静音键,AI
腾讯特效 SDK(TE SDK)聚合了智能图像中美颜特效、美妆、滤镜、动效贴纸以及基础分割、手势识别等能力,可以为短视频类、直播类平台提供智能人像美化、创意玩法功能的技术支持。
扫码关注腾讯云开发者
领取腾讯云代金券