用神经网络深入研究计算机视觉

计算机视觉是人工智能(AI)的一个热门研究课题,已存在多年。然而,计算机视觉仍然是人工智能面临的最大挑战之一。在本文中,我们将探讨使用计算机系统解决更深层神经网络的一些基本挑战。特别是,我们将研究神经网络压缩,细粒度图像分类,纹理合成,图像搜索和对象跟踪应用。尽管深度神经网络具有令人难以置信的性能,但它们对计算能力和存储的需求对其在实际应用中的部署提出了重大挑战。

双线性收敛的结果是非常高的维度,这需要大量的计算和存储资源,并且还显着增加下一个完全连接的层上的参数的数量。随后的研究旨在制定简化双线性汇合的策略,其结果包括以下内容:1。2.3。

图像描述是生成图像的一个或两个句子描述的过程。这是一项涉及计算机视觉和自然语言处理的跨学科任务。设计图像字幕网络背后的基本思想是基于自然语言处理领域中的机器翻译概念。在用图像CNN编码网络替换机器翻译器中的源语言编码网络并提取图像的特征之后,我们可以使用解码器网络作为目标语言来创建文本描述。

注意机制是机器翻译器用于捕获远程依赖性的标准技术,并且还可以用于图像字幕。在解码器网络中,除了预测下一个单词之外,在每个时刻我们还需要输出二维关注图像并将其用于深度卷积特征的加权收敛。使用注意机制的另一个好处是网络可以可视化,以便我们可以轻松地看到网络在生成每个单词时看到的图像部分。

先前的注意力机制将为每个预测的单词产生二维注意图像(图像(a))。但是,对于一些停止词,我们不需要使用图像中的线索。相反,某些单词可以根据上下文生成,完全独立于图像本身。这项工作在LSTM上进行了扩展,并产生了“视觉哨兵”机制,该机制确定是否应根据上下文或图像信息(图像(b))预测当前单词。此外,与先前在根据隐藏层的状态计算注意图像的先前方法不同,该方法根据隐藏层的当前状态执行计算。

给定图片和与图像相关的问题,视觉问题和答案旨在回答所选候选答案中的问题。本质上,这是一个分类任务,有时它使用递归神经网络解码来产生文本答案。视觉问答也是一项涉及视觉和自然语言处理的跨学科任务。问题的概念是使用CNN从图像中提取特征,RNN从文本问题中提取文本特征,然后结合视觉和文本特征,最后使用完全连接到分类。这项任务的关键是弄清楚如何连接这两种类型的功能。

注意使用注意力机制的图像字幕系统可提高视觉问答的性能。注意力机制包括视觉注意(“我在哪里看”)和文本注意力(“我在看哪个词?”)HieCoAtten可以同时或依次创建视觉和文本注意力。DAN在同一空间内投射视觉和文本注意力的结果;然后它同时产生视觉和文本注意力的下一步。

该方法使用视觉特征向量和文本特征向量的外积来捕获每个维度中这些状态的特征之间的关系。为了避免明确地计算双线性汇合的高维结果,我们可以将在细粒度识别中发现的流线型双线性收敛背后的思想应用于视觉问题答案。例如,MFB使用低速率近似背后的概念以及视觉和文本注意机制。

下面提供了许多可视化方法来帮助理解卷积和神经网络。由于第一个卷积层上的滤镜在输入图像上滑动,我们可以直接在第一个图层上显示滤镜。我们可以看到第一层重量集中在特定方向的边缘和指定的颜色组合,这与视觉生物学机制类似。但是,由于高级过滤器不直接用于输入图像,因此直接可视化只能应用于第一层上的过滤器。此方法在图像的fc7和pool5特征上使用低维嵌入。

我们可以看到,即使ImageNet没有人脸类别,网络仍将学会区分这种语义信息并捕获未来的分类。为了阻止这种情况,在中间层选择一个指定的神经元,然后将多个不同的图像输入网络,以找到导致神经元最大响应的图像区域。这允许我们观察神经元对应的语义特征,我们使用“图像区域”而不是“完整图像”的原因是中间层神经元的感受野受限并且不能覆盖整个图像。

选择图像和不正确的分类。然后,系统计算图像分类的偏导数,然后对图像应用梯度上升优化。实验表明,在使用小的,几乎察觉不到的变化之后,我们可以使网络以高可信度为模型实现不正确的类。在实际应用中,对抗性示例在金融和安全领域非常有用。研究人员发现,这是因为图像空间的尺寸非常大。即使有大量的训练数据,我们也只能覆盖一小部分空间。如果输入图像从这个不同的空间稍微改变,则网络将难以做出合理的决定。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180831A02KYL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券