物联网相机需要既快又聪惠,且能够理解图像含义

11月份的万物互联专栏讨论了为可任意时候随地在线操作这样一个时代重新思考相机的需要性。我们也有需要重新考虑这些相机“看”的方式。

如今,计算机视觉可以像大多数人所能做的那样准确地跟踪汽车、人脸和生产过程。当需要筛选大量数据时,计算机视觉模型比人做得好。

但也存在局限性。要认出一个人或一个动作,计算机仍比人需要多的时间。它们无法跟随多个摄像机之间的人或物体。它们很容易被骗。它们无法为它们所看到的内容赋予含义。工程师们需要克服这些限制,才能使相机在制造业和智慧城市中有用。

如今的相机通常可以执行推断(使用算法来将输入的图像与一个预定义的模型进行匹配)。速度为每秒30帧左右,具体取决于这些计算机视觉算法的复杂性。

任意的推断算法基本上都要在成本、速度、内存和准确性这几个变量之间进行权衡。可以快推断出某个东西是什么的相机可能就要以失掉准确性为代价,或者可能需要多内存而导致高的设备成本。

每秒30帧的速度对于在音乐会人群中找到一张面孔来说是可以的。不过,公司的运营总监Sophie Lebrecht表示,当涉及到复杂的计算机视觉任务(如明确制造过程中的错误)时,计算机需要抬高处理能力,否则就可能需要使生产线减速。一家研发软件来抬高计算机视觉能力的公司,其目标是以每秒60帧的速度进行图像跟踪。

加快计算机处理图像的帧速率只是初步。接下来是构建可以跟踪网络中的多个摄像机之间的对象的软件。例如,在一个监控摄像机上找到一个人,将能让网络在这个人走在其他摄像机前面时自动实时地跟踪他。

为此,我们需要针对复杂模型的快图像处理能力,以及在相机网络上运行并可以挑出图像的软件。我们的目标是找到一种可以在单个网络上执行此操作而不需要将数据发送到云中的方法。这将需要一种算法来识别人,并需要另一种算法来在物理空间中跟踪那个人。它可能还需要叠加在相机上或新的通信协议上的某种软件。

相机还需要避开“对抗性攻击 ”,这是一个新的研究领域。就像人可能被视错觉所迷惑一样,计算机的视觉也可能被各样会使正常的图像失真的技能所欺骗,导致程序识别出图像上并不存在的东西。

也许困难的任务是制造出能让计算机将含义赋予它们所看到的内容的软件。识别出一个人正在爬行是一回事;相机推断出在地板上爬行的那个人需要帮助或试图避过探测是另外一回事。

到那时,相机及其软件将需要决定下一步该做什么。我们还有很长一段路要走,但是Alphabet公司的研究人员已经在试图教会计算机视觉算法找出含义方面做了令人印象深刻的工作。在将来的某天,计算机可能会比我们对图像的内容理解得好,并且会利用它们所看到的来做对我们有益的事情。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181122A1NEOV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券