计算机的视觉,图像识别的四条通天大道

“视觉”承担着我们80%的信息摄入工作。在解决“听”“说”问题的同时,我们也要教会计算机“看”,也就是图像识别,以识别一朵花为例,用户将图片上传后,计算机将它转化成“0101”的数字流,然后输入深度神经网络,经过层层分析、层层抽象,对包括像素在内的各层信息与现有的大数据进行比对,才能重新还原并识别出它是一朵花。这种方法其实和人类眼睛的功能是近似的。

这一切都要建立在预先对图片分类的基础上。目前世界上最大的图像识别数据库ImageNet的图片分类有1000多类。在百度的图片数据库的分类已经达到了4万类。这也是百度大脑图像识别的巨大优势。

计算机的视觉计划一般从四个方面来推进,首先是人脸识别,通过捕捉人脸关键点形成人脸表情王,实现人脸的准确识别。如今年IphoneX的faceID功能、人脸刷卡功能,还有前几天中国农业银行推出的刷脸无卡取款等,都是运用人脸识别的功能。

其次是地图服务和智能识别技术的结合,打造数据无限逼近现实世界的效果。就是我们常用到的实景地图实时显示。第三无人驾驶技术也是利用计算机视觉进行程序优化让无人车的研发速度加快。近日北京发布的无人驾驶政策也助力了无人驾驶的研发,深圳无人驾驶公交车的上线等都加速无人驾驶的实现。

最后图像识别还会被引用到AR(现实增强)领域来提高视觉效果,大家都看过3D电影的视觉效果,身临其境的真实感,而AR则是360全方位无死角的身临其境。

最直接的应用在估计复原和数字化文化遗产的保护上,文化古迹的信息以增强现实的方式提供给参观者,用户不仅可以通过HMD看到古迹的文字解说,还能看到遗址上残缺部分的虚拟重构。当然医疗里医生可以利用AR轻易地进行手术部位的定位。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171221A0SZ9C00?refer=cp_1026

扫码关注云+社区