专栏首页大数据文摘计算机和人类“看”法不同,但这重要么?

计算机和人类“看”法不同,但这重要么?

大数据文摘出品

编译:张大笔茹、刘俊寰

“看”这个动作一直被认为是生物所独有的。

当工程师第一次“教”计算机“看”这个动作时,他们理所当然地认为计算机可以像人类眼睛一样进行观看。

约克大学(York University)计算机科学家约翰·托索斯(John Tsotsos)说道,上世纪六十年代有关计算机视觉的第一批提案“显然是由人类视觉的特征所驱动的”。

但是现在情况已经大不相同,人工“神经网络”处理可视数据的方式与人类的越来越相似。

计算机视觉已经从三维发展到了广阔的领域。现在,计算机可以在某些视觉任务上胜过人类,比如利用图片特征分清狗和狼,以及检测医学图像中的异常情况。

人类的反馈过程与计算机视觉的前馈方法完全不同

基于计算机视觉的神经网络过程很简单。把接收的图像作为输入端,通过一系列步骤对其进行处理,首先检测像素,然后检测边缘和轮廓,检测整个对象,最终对它们的外观做出猜测。由于整个过程属于流水线设置,又被称为“前馈”系统。

关于人类视觉,我们不了解得太多,但我们知道人类视觉并非如此。

在最近的文章“数学模型揭示视觉秘密”(A Mathematical Model Unlocks the Secrets of Vision)中,Quanta介绍了一种新的数学模型,该模型试图解释人类视觉的中心奥秘:大脑的视觉皮层是如何根据从视网膜接收到的少量信息,创造出生动、准确的世界表象的。

该模型表明,视觉皮层通过一系列神经反馈回路实现这一“壮举”,这些反馈回路将来自外界数据的细微变化细化为我们眼前出现的各种图像。此反馈过程与计算机视觉的前馈方法非常不同。

康奈尔大学神经科学家乔纳森·维克多(Jonathan Victor)表示:“这项工作确实发现了人类视觉皮层与计算机视觉之间的复杂程度和某种意义上的差异。”

计算机视觉根本不需要人类视觉的启发?

在某些方面,答案显然是否定的。

传入视觉皮层的信息受到解剖学的限制:相对较少的神经将视觉皮层与外界联系在一起,这限制了皮质使用的视觉数据量。

而计算机不必担心带宽问题,因此没有必要使用稀疏信息方法。“如果有无限的计算能力和内存,是否还需要稀疏任何东西?答案可能不是!”Tsotsos说。

但是Tsotsos认为无视人类的视野是错误的。

目前计算机擅长的分类任务是计算机视觉的“低端成果”。为了完成这些任务,只需要在海量数据集中找到相关性即可。对于更高阶的任务,例如从多个角度扫描对象以确定是什么,这种关联法就行不通了,可能还是需要人类把关。

去年接受Quanta采访时,人工智能先驱Judea Pearl提出这一观点时更为笼统,他认为相关性训练从长远来看不会使AI系统发展得太远。

例如,人类视觉的关键特征是具有双重能力。我们接收视觉信息的同时对所见所闻得出结论。当这个结论令人震惊时,我们会再看一遍,通常第二眼便会告诉我们真实的情况。以前馈方式工作的计算机视觉系统通常缺乏此功能,这导致计算机视觉系统有时甚至不能完成某些简单的视觉任务。

计算机视觉系统值得期待

人类视觉还缺少另一个更微妙,更重要的东西。

人类的视觉系统是需要几年的时间才能成熟的。Tsotsos和他的合作者在2019年发表的一篇论文中发现,人们直到17岁左右才能够完全在混乱拥挤的找到他们的目标。其他研究显示,识别面孔的能力一直不变直到20岁左右才有所改善。

计算机视觉系统通过分析大量数据来工作。它们的基础架构是固定的,并且不会像大脑发育的方式一样随着时间的推移而成熟,如果基础机制如此不同,结果是否也会不一样?Tsotsos认为计算机视觉系统值得期待。

他说:“用这些深度学习方法中进行学习与人类学习无关——天花板即将到来了,这些系统将无法继续发展。”

相关报道:

https://www.quantamagazine.org/computers-and-humans-see-differently-does-it-matter-20190917/

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 视觉研究的前世今生(下)

    大数据文摘
  • 视觉研究的前世今生(上)

    大数据文摘
  • 揭开黑盒一角!谷歌联合OpenAI发布“神经元显微镜”,可视化神经网络运行机制

    虽然机器视觉系统在越来越多的领域得到应用,从医疗保健到自动驾驶汽车,但是要真的理解机器的眼睛到底是如何“看到”事物,为什么它将甲归类为行人,但将乙归类为路标,仍...

    大数据文摘
  • 你的设计作品!缺少视觉引导吗?

    任何一款平面广告作品,都要通过字体、色彩、图形和心理活动来表现,三种视觉传达元素和心理因素,经过构图布局,形成一个完整的画面。其中视觉引导对整个平面广告设计来说...

    用户1730674
  • 一个狠招|如何高效学习3D视觉

    有的读者可能对于计算机视觉中2D和3D视觉的区别仍然较为模糊,此处根据某篇论文中的解释,介绍如下:

    OpenCV学堂
  • 基于深度学习的人脑视觉神经信息编解码研究进展及挑战【附PPT】

    现实世界中,外部视觉刺激是多种多样、杂乱无章的,而人类的视觉系统,从视网膜到高级视觉皮层的各个认知阶段,却能以某种方式稳定地识别和理解这些视觉输入数据。人脑在复...

    马上科普尚尚
  • 什么是计算机视觉?什么是机器视觉?

    每天,我们睁开眼都会看见这个多彩的世界,五彩斑斓的花朵、湛蓝的天空、还有亲人熟悉的笑容,对于每一个健康人一出生便享有上天赐予的美好特权,我们可以通过眼镜感知这个...

    用户4524627
  • 多模态机器翻译的视觉一致常规训练 (CS CompLang)

    原文题目: Visual Agreement Regularized Training for Multi-Modal Machine Translation

    shellmik
  • 设计+科学,我们这么玩!

    ? ? 2019年腾讯科学WE大会以「小宇宙」揭开了序幕,给大家带来了一场精彩绝伦的科学盛会。而在色彩斑斓的「小宇宙」背后,是策划团队与设计团队历经千锤百炼才...

    腾讯技术工程官方号
  • 微软亚研提出VL-BERT:通用的视觉-语言预训练模型

    作者:Weijie Su、Xizhou Zhu、Yue Cao、Bin Li、Lewei Lu、Furu Wei、Jifeng Dai

    机器之心

扫码关注云+社区

领取腾讯云代金券