2017CS231n学习笔记——计算机视觉的概述

用户1154259

发布于 2018-09-21 11:34:50

6720

发布于 2018-09-21 11:34:50

文章被收录于专栏：xingoo, 一个梦想做发明家的程序员

本节课主要讲述了cs231n课程的背景和计算机视觉的历史，也主要介绍了目前很重要的一个计算机视觉数据集——IMAGENET。

更多内容参考我的AI学习之路

课程简介

这门课程是由stanford大学计算机视觉李飞飞以及她的学生制作的，也叫做CS231n，是偏专业性的深度学习+计算机视觉课程。

目前计算机视觉越来越火，因为互联网中大量的信息都是通过图像或者视频来传播的，在计算机视觉中也涉及到了各个学科的内容，比如机器学习、信息检索、系统架构、图形学、算法、神经学、图像处理、自然语言处理、机器人等等。

计算机视觉的历史和发展

从微生物进化，到照相机，再到生物学对视觉的研究，1963年计算机视觉发表了第一篇论文《Block world》，其中视觉世界被简化为简单的几何形状。1966年MIT暑期开启了一个视觉项目，之后很多的视觉科学家开始加入到视觉研究中。David Marr在70年代写了一本视觉很有影响的书《VISION》，描述了视觉的抽象过程：构建草图、形成2.5D的分层、构建3D模型。70年代另一个非常重要的工作是提出一个通过简单的方块连接世界的问题。

60年代到70年代，解决物体识别非常困难，因为没有样本。1997年Berkeley的Jitendra Malik和他的学生Jianbo Shi完成了图像的分割Normalized Cut。。2001年Viola&Jones研究了Face Detection，Paul Viola基于AdaBoost进行实时面部检测，后来直接应用到了照相机中。。1999年 David Lowe剔除SIFT算法，用于物体的识别。。2006年Schmid&Ponce剔除空间金字塔 Spatial Pyramid Matching 。2005年Dalal&Triggs剔除HOG，histogram of gradients HoG。2009年Felzenswlb McAllester Ramanan剔除肢体模型

2006年，公开了一个数据集用于专门测试物体识别算法，PASCAL，Visual Object Challenge，有20个物体类别。同时，普林斯顿和斯坦福开始着手做了另一个数据集——IMAGENET，里面包含了22K个类别，14M的图片。每个图片中会包含很多物品，如果输出最大概率的5个物品，其中包含正确物品，就认为是识别成功，以此来衡量准确性。2012年IMAGENET的错误率明显下降，因为使用了卷积神经网络，从此深度学习开始大放光彩。

不过卷积网络实际上是90年代就剔除的：