计算机视觉,一种直观的解释
人类历史和大脑研究中的一个主要问题是:我们如何以我们的方式感知世界?
当谈到我们的眼睛时,这些只是传感器,帮助我们建立一个可理解的表现我们周围的场景!例如,诸如颜色之类的属性不是物理世界中的物体所固有的,而是代表我们对不同波长的光的感知反射的心理抽象。尽管听起来令人沮丧,但在我们的物理现实中,一切都是“黑暗的”。当此物体反映我们在心理上与红色相关联的特定波长时,物体显示为红色,并吸收所有其余物体。
在这种情况下,我们在f(t)上应用g(t)(称为内核),并根据两个函数区域的交点改变响应(f * g)(t)。这种卷积概念是信号处理中最常用的技术,应用于计算机视觉,可以看作是处理多个RGB传感器的信号。
你在上面看到的只是图像中滑动窗口与内核的矩阵乘法,然后加上总和。计算机视觉环境中卷积的强大之处在于它们是RGB传感器领域的强大特征提取器。单独拍摄时,每个像素(RGB传感器)对于理解图像包含的内容毫无意义。是空间中像素彼此的关系,才赋予图像真正的意义。它适用于您在计算机上阅读本文的方式,其中像素表示字符,大脑在空间中匹配黑色像素,形成字符的概念。
在图的左侧,您可以看到错误空间,它由应用于我们特定数据点的MSE给出。在右侧,我们可以看到我们的数据点的表示,以及由m和b定义的行。在开始时,线完全关闭,并且它反映在高误差值中。然而,当我们计算导数并向函数减少的位置移动时,我们最终得到m和b的值,这些值类似于数据点的属性。
每个输入都有一个权重w1,w2,...,wn,表示它们对输出的重要性。最后,使用输入和给定阈值的加权和计算输出。如果此总和大于此阈值,感知器将输出1,否则为0。这可以更容易地用代数术语来表达:
网络的人工神经元通过层彼此连接。连接到输入的第一组神经元形成输入层。提供预测的网络的最后一层称为输出层。中间可以有任意数量的层,它们被认为是隐藏层。
领取专属 10元无门槛券
私享最新 技术干货