00:13
大家好,今天给大家带来的分享是深度学习在多视图立体匹配中的应用。首先我们来看一下目录哈。我会从首先我会给大家介绍一下多视图立体匹配的一个背景,简单的介绍一下,然后会梳理一下它的大概的一个发展的流程,嗯,然后会重点讲解几篇论文,最后是我的一个参考文献,然后重点论文呢,我是选了这四篇论文,这四篇论文呢都是呃,近几年。在顶会上发表的一个论文,感觉比较有价值的一些论文。
01:00
先来介绍一下我吧,我叫沙lo,目前是在中国大学多媒体工学读硕士,我的研究方向是基于深度学习的多视图立体匹配,嗯,目前也是在一个就是边学习边输出的过程吧,然后希望和大家可以一起进步。呃,我呃,我的知乎是这个shallow Miss,大家嗯,有兴趣的话可以关注我一下,目前呢,我也是初步建了一个专栏,就是和shallow一起读论文,在这里呢,我会分享一些自己平时读论文的笔记呀之类的,然后呃,主要还是记,就是主要还是在呃基于这个研究方向的一些论文吧,就是都是做立体匹配呀,呃,关于深度学习,就是深度学习在这方面应用的一些论文什么嗯都不的,嗯。对东木的会比较多,然后后续可能会再读一些,呃双目的论文,大家如果有兴趣的话可以关注一下,右边呢是我的一个个人微信,大家如果有想和我讨论的问题,或者就是大家可以加我微信私戳,然后我们可以一起聊一聊。
02:15
嗯,这在这里给大家推荐一个这样的星球哈,就是也是我现在所在的这个就是知识星球的一个这样的知识社群,然后在这里呢,会给大家提供很多的就是3D视觉领域的一些知识吧,然后还有大家的一些分享,大家有问题的话也可以在知识新秀里面提问啊,这样大家如果有就是懂这方面问题的大家也会给你进行回答,然后希望可以在这里和大家共同进步,然后大家如果想加入的话,可以扫一下右边的这个二维码,然后通过我这里加入会有一些返现的优惠哦,大家可以去试一试,好的,那我们就进入正题,首先来看一下这个多视图立体匹配的一个背景啊,就是在这儿就是简单的介绍一下。
03:07
首先我们来看这个问题定义就是什么是多试图立体匹配呢?就是它到底在讲什么问题,在在解决一个什么样的问题呢?简单来说就是它是要从两个或者是多个这样的相机中去恢复一个深度信息,就是换句话说是什么呢?就是嗯,我有两个或者多个这样的相机,其实它会拍拍一些就是RGB这样的,就是就普通的图片,然后我呢,要从这些图片当中去恢复呃深度信息说换句话说就是说我要去恢复它的一个三维,三维空间中的这样的一个信息。然后这个呃,其实两个这其实对应的就是说它是一个双目的这样的,呃照片这个叫双目的话,是因为一般它有的用的是那种双目摄像机,就一个摄像机会有就是照出来的那个那个左左右,左右两幕这样的一个照片,一个图像,一个一个呃相机的就是一个图像的一个图像,对吧,然后多个的话,他可能会就是在用一个相机在不同的机位,这样照多个不同角度的同一个物体,但是不同角度的照片,然后就是目前我们说的这个多视图立体匹配的话,可能指这个多目的这种情况会多一些,就是它是两个以上的这样的图片。
04:33
去干什么呢?去预测它的一个深度图,就是说去推测它的一个深度信息,然后把这个深度信息了,再转化成一个三维空间的,呃,一个信息,比如说点云吧。大概就是这么一个流程。然后我们看这个立体匹配系统呢,它大概就是一个立体匹配系统,它大概要包含以下这么四个,四个部分嘛,第一个就是配准,配准主要是在干什么呢?就是大家也可以看啊,我右边这个其实是就是配了配了一些这个,嗯,这个这个效果图嘛,就是然后配准主要是在干什么呢?就是主要是呃去对齐就是呃呃主要是就是去预测这个嗯,相机的也也不是预测,就是说他要去求到这个相机的内外参。
05:27
对,就是去求一个相机的这样的参数,就是包括说我们现在诶知道了,我们我们从那个相机会获取到这样的一这样的一些立体的图像,对,然后多个的话,可能是多个这样的图形,然后首先配准的话,我们是要去求一个相机的内外参。另外第二步呢,就是对齐,对齐这一步呢,是在干什么呢?就是首先第一个大家可以发现它其实去除了一个图像的畸变,就是说把这个镜头畸变给去掉了,另外一个呢,就是它会把这个图像图像去做一个对齐,什么叫对齐呢?就是嗯,我简单的简单的画一下啊,就是我们那个图像,它可能是这个样子的,只有一个图,然后这边有一个图,它可能是两个这样不同的位置,然后这是这是那个图像,这个这个这个图是这么照的,然后这个图呢,又是从这个方向照的,就是他其实看这个图像的这个视角,或者说这个方向,它其实不在一个平面上。
06:26
那这样会有个什么问题,就是我我这个图像里可能,诶对这个这个同样的点是在这儿,是是是在这儿的,大概是在这一条线上,然后在这个图片当中呢,它这一条线呢,又是又是在这儿的。然后它其实就是我就算是把这两个摄像机放正之后,它这两个嗯,图像上的对应点也不在同一条直线上,所以其实换句话说,我们把我们这个对齐在干什么,就是说我要把这两个图像给它。
07:00
换成一个我们所叫叫什么呢?叫标准形式,其实就是这个样子的,就是说我图像上的。同一条线上的这个同一条线上,他们其实就是说这个图形的这条线上和这个图形的这条线上,他们的那个点就是指的嗯,指向的是三维空间的同,就是嗯,同样的这么一行的点,就是指的是同样的一个物体的这个信息,这个就是说对齐去所做的一个标准的形式,然后对齐完之后呢,我们就可以拿上面我们对齐完的这个图像去得到一个,哎呀,不好意思啊,就得到一个深度图。去得到这么一个是,呃呃,去得到这么一个视差图,然后立体匹配这一个,其实就像我刚才说的,我们对齐是为什么,我们对齐是为了好找它们的同源点,就是说对应三维空间当中相同的那个点,然后我们在左图和右图当中找到这个同源点之后呢,同时其实我们相当于就找到了这样的一个视差图,因为视差图它表现的就是说这个同源点在左右图当中到底是差了多少,就叫视差嘛,所以说我们要我们通过这个结果就能得到这样一个视差图,其实就是完成了一个啊立体匹配这个过程,这个立体匹配的过程完成之后呢,我们就要去做一个三角剖分,这个其实也很好理解,就是主要是干什么,有了视察图之后。
08:32
这个视察图我们再呃,我们再加上一些呃什么呢,比如说摄像机的一个参数。然后还有就是类似于那个,呃,摄像机的内外参啊,然后镜头的深度啊之类的,然后另外还有一个其实和相机相关的一个叫叫base,呃,Baseline吧,好像是。啊,总之就是一些参数,加上一些参数呢,就是我们呃上面已知的一些参数,然后就可以去把它变成呃,就是把它转换成depth map,然后最后再渲染出这种三维的空间的这种形式。
09:12
这个过程就是现在破分去做的事情,好知道了这个之后呢,我们来看一下,就是呃,它的算法流程是什么样子的,在这个一个就是类似于综述综述综综综述性质的这样的一个文章当中呢,它其实做了一个总结哈,就是把多视图立体匹配的过程呢,分为了这样的四个步骤。这四个步骤主要是什么?就是第一是匹配,大家计算。这个匹配代价计算呢,实际就是说我们去找那个匹配的时候,到底说我这个匹配的对不对,它的代价大概是多少,就是其实说我们要定一种方式去算它的这个匹配代价,然后找到这个匹配代价之后呢,因为我们是有多个图的嘛,所以他可能会把这所有的图的这个就是匹配代家都聚合在一起,就是,嗯,就是就是聚就聚合到一个一个体内,就是其实后面我们会提到一个叫cost volume的这个概念,然后它其实就是把所有的这个匹配代价呢,都放到了一起,就是做了一个聚合,然后聚合之后呢,我们去通过它这个我们聚合得到的这个东西去算一个就是最优,相当于是算一个最优解嘛,其实就会得到我们的这个时差图。
10:41
然后在这是视差图哈,然后我们可能在用一些别的方式对这个初步得到的这个视差图再进行一个优化,然后在就是在,呃,按我的理解就是在双目的时候,因为我看了一些论文,它结果也是这个样子,就是在双目的情况之下,它一般会就是做到视察图这一步。
11:01
然后应该当然当然后续也这个视差图也是可以转换到这个深度图,然后去再算的,但是他一般就是做到这儿就就停了,然后完了可能直接转换成什么深度图啊之类的。然后比如说再转换成点云,当然这个是可以的,但是感觉就是论文大家都直接就是做到视差图就停止了,但我们今天研究的不是多目的嘛,在多木的时候,哎呀。多幕的时候是什么情况呢?就是大家会从这个cos直接去预测深度图。然后再把这个深度图呢,进进行一个呃,FS的过程吧,然后去把它变成点云这样的一个形式,然后这个视差图和深度图是什么关系呢?就是其实他们是可以互相转化的,就是他们是可以有一个公式,就是利用一些像前面一样,利用一些参数,我们就可以对它进行一个转化。嗯,其实是没差的,就基本上是没差的,就是这么一个意思,然后看这边啊,这边这个右边这个图片,就是这个是我标的一个,嗯,就是说深度学习现在他大概是怎么去做的,这个多视图立体匹配嘛,然后对于前面的这些过程,其实他就是说就是说现在总结都是拿这个CNN或者是3D的这样一个CNN去做这个事情,然后首先他可能会从图片当中提取一些信息,然后用这些信息呢,最后去建一个啊,就是把这个匹配大家,呃,匹配大家计算,还有大家聚合,这两步都都得出一个结果,然后通过这个呢,呃,还是在在用,一般一般到这一步的时候,他就会用一个3D CN去做,然后。
12:48
这样的话会出一个预测的结果。这个预测的结果呢,就是我们得到的这个初步的map,然后有的可能再得到这个初度的呃,初步的这个深度图之后呢,再再对它进行一些啊优化啊什么的,最后得到一个就是我们最终最终的结果,就是得到这样的一个深度图,然后呃,就是用刚才提到的方法,就是他在用一个呃F的这个办法去把这个深度图呢,转化成这样的一个点云的形式,写到这吧。
13:23
就是用这样的方式,最后转化成我们见到的这个点云这样的结果,这个呢就是深度学习大概是怎么处理的这个问题。然后这张图呢,是我自己总结的一个发展的流程。
我来说两句