【独家】虞晶怡:虚拟现实与视觉(附视频)

本文共4140字,阅读全文约需12分钟

本文为大家讲述了虚拟现实技术在视觉方面的应用。

[ 导读 ] 3月25日,由清华-青岛数据科学研究院和中国工业经济联合会企业社会责任促进中心共同主办的“虚拟现实技术(VR)应用的社会价值与社会风险”研讨会在北京召开。来自政府、协会、企业、高校、媒体的150多位代表参加了研讨会。嘉宾们围绕VR技术的发展趋势、产业应用前景以及其中可能存在的社会风险进行了讨论。

本讲座选自上海科技大学教授、虚拟现实中心主任虞晶怡于2017年3月25日在清华大数据RONG系列论坛:大数据与VR伦理讲座上分享的题为《虚拟现实技术的发展与产业应用:现状与趋势》的演讲。

(建议wifi条件下观看)

说到虚拟现实,很多人说2016年是虚拟现实的元年,其实虚拟现实已经有超过50年的历史了,让我们先做一个非常简短的回顾,看看过去20年。当时最牛的一个虚拟现实技术叫做QuickTimeVR,这个技术非常简单,现在在自己的Iphone上都能实现这个功能:拿手机拍一圈,把照片拼成一个360度的图片。很多人说这是一个虚拟现实,也有人说不是。具体是怎么实现的呢?手机拍的一圈照片按照不同的视野投到一个圆柱上去,由于拍摄的时候手的角度会发生变化,所以这些照片并不能拼接的非常准确,这时候就要用一个计算机的算法,在两张照片之间寻找出一条最好的缝,按这条缝切开左边的图片属于左边、右边的图片属于右边,缝中间是互相连续的,这样就产生了360度的3D拼接效果。现在市面上很多做虚拟现实的公司就是用的这样的技术——1996年的技术。

虞晶怡和伙伴们做了一个小公司,用360度环拍技术给拉斯维加斯的酒店进行拍摄,拉斯维加斯有很多赌场,希望吸引游客驻足。他们2000年时用这个技术与拉斯维加斯赌场合作,但是没有成功。虚拟现实是由两部分组成的,虚拟和现实。当时的虚拟现实其实并没有真正实现现实的部分,所做的东西偏虚拟,不能满足人眼的3D或者特殊的大脑功能。但是走到今天,虚拟现实中的很多技术已经慢慢成熟,人们终于可以做到眼见为实了。

虚拟现实中的“眼见为实”的部分,又称为智能视觉,人的眼睛是世界上最神奇的系统,主要由三大组成部分:第一部分是人的角膜,角膜是光线的追踪器,可以把光线采集下来;第二部分是晶状体,就像对焦的镜头一样;第三部分是视网膜,就像传感器一样,把采集到的光线转化成电信号传到大脑里面去。

但其实人眼是不知道什么叫三维的,三维是大脑产生的一个范式。人的眼睛采集三维世界的光线时,把每个光线上所附带的能量记录下来。按照1996年斯坦福的科学家提出的光场的概念,空间中有两个固定的平面,每个光线的两个平面有两个焦点,每个焦点被固定的这个平面上是二维的,两个二维叠加在一起就变成了四维,叫做四维光场。

那么怎么利用光场这个概念实现像人眼一样的AR/VR呢?

我们知道人有两只眼睛,而且都长在正前方,所以两只眼睛重叠的区域特别大。在重叠区域里左眼和右眼看到的东西是一样的,这样就有了动态的视野,一个东西距离越近移动就越大,距离越远移动就越小,这就是人的3D识别。前面说的360度环拍其实不是很好的Idea,就是因为不能实现这样一个幻觉,那么如何用视差产生3D视觉呢?最简单的做法是拿两个相机拍摄,每个相机用鱼眼镜头、也就是广角镜头来拍。但这样做是有问题的,用鱼眼镜头的效果,当你看正前方的时候确实能有3D的感觉,但是只要你脑袋轻轻转动一点,你就会发现同样三维的点投入到了两个相机里面,不但在水平方面有移动,在垂直方面也产生了三维视觉,而人眼又不可能斜着去看,这就导致旋转时会产生很大的晕眩。

如何解决这个问题呢?1999年,以色列的科学家发明了一个技术,用相机进行环拍,环拍以后把每个图像截开,比如说:每一个图像从左往右数,第五张是红颜色的,拼一个360度的环式,从右往左是蓝色的,也拼成一个360度环式,视觉上没有任何差别。这就是现在通用的环拍技术,如GoogleJump的实现原理。这个技术在拍摄时要使用一个稀疏阵列相机,把图像一分为二,把所有左边的图像用1995年的方法拼在一起,再把右边的也拼成环式。这个方案听起来是可行的,但是有一个问题,左边拼出来的非常平滑,右边拼出来的也非常平滑,左右一起看的时候就对不上了,因为拼左边的时候没有考虑拼右边,怎么解决这个问题呢?去年我们在上科大推出了一个双目系统的概念,把原来是环式组合的相机做成两两组合的系统,因为每个相机本身是完美的图像,用跨相机的技术拼接在一起,至少就可以保证在每一个视角都看得非常好,但这个技术的实现难点在于跨两个相机之间的拼接。

去年虞晶怡团队推出了一套360度3D的实时实况转播技术。如果你关注过宁泽涛,我们今年给他做了一个关于奶酪的视频,利用这样一个架构在云端进行跨相机拼接,可以在手机端观看,也可以戴上耳机做360度观看。

同一时期,我们参与了一个非常有名的舞台剧“战马”的制作,当时在上海文化广场拍摄的时候,把360度3D的相机系统架在表演者和观众之间做实况转播,人们在家里戴上头盔就能同时看到观众的反应和舞台的表演。

不过,人的眼睛不但有双目视觉,还有单目聚焦的功能,这里就存在着一个风险。我不知道在座有多少人看过Billy的“中场战士”,这是用一个最新技术、4K超高清拍摄和二维拍摄拍的。按理说这样的拍摄应该很惊艳,结果我看了这个电影以后,包括很多其他人看过之后,都头疼了一天,因为画面过于清晰了。也就是说你认为的好品质图像不一定是好的,过于清晰的画面会让你的眼球始终对焦在这个平面,因为人的眼睛天生就知道要对焦在最清晰的画面上,但如果盯着这个画面不动盯两个小时,根本受不了。而日常生活中人眼在观察外界时随时进行着焦距的转换,所以不会产生头疼。如何解决VR里面的对焦问题,目前还没有一个很好的解决方案。

从内容生成的角度来讲,要怎么做到动态纯对焦呢?这里就要用到光场的概念。拿一堆相机把所有光线采集下来,采集完以后放在空间里,假设对焦在某一个平面,然后用一根光线射到这个平面,代表我的眼睛看到这个平面,这样就可以对这根光线反追踪到采样的相机里,二者叠加就得到了动态的纯对焦,这是一个很有意思的技术,怎么采集光空间呢?最简单的办法就是拿相机,2006年我加入了世界上第一大相机对焦系统,这种相机当时要50万美元,现在越来越便宜了,比如说你现在就可以拿一个800块钱的相机拼一个制作出来,采样完以后又可以做动态。

那么对于全景照片,我们能不能拿这样一个系统建立360度纯对焦的系统呢?只需要戴上头盔,眼睛看到哪里就能帮你对焦到哪里,能大幅度的减少晕眩。

前面我们已经讲了两部分,第一部分是双目视觉,第二部分是动态对焦,相当于给AR/VR赋予了一双眼睛,这双眼睛可以做双目视觉、可以做对焦了。但我们还缺一个头脑,所以接下来我要讲如何把头脑加入虚拟现实增强功能里。

这套技术是2005年研发的。1995年时360度环拍的技术还没有成熟,但是现在你戴上一个3D眼镜就有3D的感觉,为什么呢?因为人的大脑看了很多东西,有丰富的经验,会假设一个3D的感受。那我们能不能模仿大脑思维方式自动把二维环拍转化为3D环拍呢?简单来说是可以的,用深度学习的方法。未来深度学习会慢慢渗透到虚拟现实里去,因为传统的AR/VR技术不够了,必须要用人的大脑去补偿它。我们把几何信息、空间线、平行线会交汇到一点,利用整个空间的信息等,做到只用一张的360度环拍图产生出360度3D的效果。

前面讲的是用一台相机、两台相机拍摄的情况,能不能用很多台相机拍摄呢?也是可以的。我们搭建了一套全中国最大的360度对内环拍系统,由140个相机组成,高8米,能够从任意角度对任意人体或物体进行环拍,环拍的效果可以在任意角度观看。这张图是拍完以后用计算机视觉的方法生成的三维的我。大家想象一下:在现实中见到一个真实的自己有多遥远?其实它已经非常接近了,你可以造出一个非常非常逼真的自己。黑客帝国中有一个子弹场景,李维斯是被一根钢丝悬着,周围有120个相机进行环拍,然后做一个三维呈现,观众可以从任意角度观看。但是当时的技术还不能走近和走远,而现在的技术已经可以呈现了。

拿一堆相机拍摄的时候,一个最大的问题是遮挡,有的相机只能看到我的前面、看不到后面,所以哪怕140个相机对一个人物进行环拍,也不足以呈现全部。如何解决这个问题呢?仍然要借助计算机视觉和深度学习的方法。人是一直在动的,如果把每一帧帧的时空信息集合在这里,就能够产生一个非常好的3D重现效果,最后把不同帧合并成一个帧。这里是它的演示视频,从头到尾用不同的帧,最后把这些帧拼加在一起,做成动态的、没有洞、没有遮挡的体验。

下面我们看看它的一些实现。这是我们拍的一个京剧人物,很有名的一个老生,叫蓝天,他演的黄忠,用360度环拍技术,你可以从任意角度观看他的表演;下面这个是我们和美国中央音乐学院做的虚拟现实演奏会,我们环拍了三位表演者:鼓手、小提琴手和音乐家,这是一个动态的拍摄,你可以把这些人任意组合在三维的空间里面,带上头盔以后人就可以穿越到这里面去,跟他们一起表演;大家以后想看个什么明星,戴上头盔他就出现在你的面前,这种虚拟人物的呈现现在已经能够实现了。我相信今后会有更多这样的例子,人物采访、体育转播都可以有这样的呈现。

我要讲的最后一部分要稍微专业一点,前面说到把三维模型建起来,人的眼睛不光有几何,还能看到材质。这是一个刷了漆的木头,那是一个地毯,这些材质信息是超越几何的。这里面的原理还是光场。人之所以能够判断材质,是因为当转动脑袋和双眼的时候,物体上面的光发生了变化,光的信息蕴含了材质的信息。那么如何用材质信息进行三维重建呢?这就又回到特别有意思的深度学习了,人一开始不知道这是一个刷了漆的地板、那是一个地毯,是通过学习才知道的。模仿这样的学习方式,我们可以大量采样,通过深度学习的方式学出来材质的呈现。下面是一些演示,这是去年双十一的时候我们和阿里巴巴携手打造的VR购物;这是一个唐三彩的模型,可以看到上面刷了一层釉,用光场的方式拍摄产生出了栩栩如生的体验。

2005年响应习总号召做了一个公司,叫叠境数字科技,去年拿到了4500万的天使轮投资。他们做了这样一个LV包,你戴上眼镜就能看到它的光泽和材质,栩栩如生的展现在你面前。除了物件的展示以外,另外一个很有意思的是对人物的展示,这是我以前的博士生,所有后面的场景都是假的,唯有这个人是真的,我们用环拍技术拍摄了这个人,你可以戴着头盔对他进行任意方位的观看。

最后虞晶怡用《西部世界》里的一句话结束演讲:带我去山和海交汇的地方。

整理:赵强

校对:杨学俊、丁楠雅

编辑:孟亚林

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

知乎观点收集:关于机器学习和数据挖掘找工作

甲:数据挖掘 很多地方招聘还是挺喜欢这样专业的,但是前提是你得过笔试关。 为了笔试,学习C和数据结构 数据挖掘的时候学习算法和推理机制等,看看数据分析,神经网络...

4257
来自专栏吉浦迅科技

BAM!吸引奥巴马的脑计划

奥巴马政府将在下一财政年度的预算中为一项重大研究课题——大脑活动图谱(BAM)项目拨款,这项研究最终可以极大地拓展人们对人类大脑健康和患病状态的认知。《科学》...

2594
来自专栏量子位

用AI算法分析光影看到盲点:这项MIT新研究偷学到二娃技能

安妮 编译整理 量子位 出品 | 公众号 QbitAI 嗨少年,想不想来双透视眼? ? 虽然这听起来有些科幻,但近日,麻省理工学院(MIT)计算机科学和人工智能...

3957
来自专栏机器之心

Yann LeCun卸任FAIR实验室主任,改任首席AI科学家

3497
来自专栏人工智能头条

MIT在读博士心得:做好AI科研,你需要注意什么?

1724
来自专栏新智元

【综述】语言分析技术在社会计算中的应用

中国中文信息学会社会媒体处理专委会 传统社会科学研究中的数据主要通过调查问卷或口头采访等方式获取,既耗时耗力,数据规模也很受限。进入互联网时代后,人类社会越来越...

3755
来自专栏窗户

数学对于人类意味着什么

  这个话题是个很常见的话题,也是一个很难说明的问题。每当闲着无事的时候,我都会去思考一下关于数学的问题。正值假期,我有很多的时间来思考。   昨天大年三十,母...

36512
来自专栏量子位

看几小时视频就能模仿人类聊天?Facebook机器人表情丰富着呢

安妮 编译整理 量子位 出品 | 公众号 QbitAI 人形机器人的相似度与人类的好感度不成正比。根据日本机器人专家森政弘1970年提出的恐怖谷理论,随着物体拟...

3238
来自专栏量子位

快看这个机器人,在使用双截棍!| 附正经paper

夏乙 编译整理 量子位 出品 | 公众号 QbitAI 机器人会武术,谁也挡不住。 但是,真的有一群科研人员让机器人学会了一样兵器:双节棍。 就像这样: 新泽西...

3206
来自专栏新智元

神经网络到底要做多少层?沈向洋专访

【新智元导读】 沈向洋在专访中表示,神经网络到底要多少层?这个问题一直没有得到回答。我觉得应该有人写这样一篇基础的论文(来回答这个问题),这肯定会是一篇获奖论文...

42912

扫码关注云+社区

领取腾讯云代金券