专栏首页机器学习入门与实战深度学习图像中的像素级语义识别

深度学习图像中的像素级语义识别

目前出现的相对流行的场景分类方法主要有以下三类:

(1) 基于对象的场景分类: 这种分类方法以对象为识别单位,根据场景中出现的特定对象来区分不同的场景; 基于视觉的场景分类方法大部分都是以对象为单位的,也就是说,通过识别一些有 代表性的对象来确定自然界的位置。典型的基于对象的场景分类方法有以下的中间步骤:

特征提取、重组和对象识别。 缺点:底层的错误会随着处理的深入而被放大。例如,上位层中小对象的识别往往会受到下属层相机传感器的原始噪声或者光照变化条件的影响。尤其是在宽敞的环境下,目标往往会非常分散,这种方法的应用也受到了限制。需要指出的是,该方法需要选择特定环境中的一些固定对象,一般使用深度网络提取对象特征,并进行分类。 算法:AlexNet。 除了传统的卷积层、pooling层、全连接层。AlexNet加入了 (1)非线性激活函数:ReLU; (2)防止过拟合的方法:Dropout,Dataaugmentation。同时,使用多个GPU,LRN归一化层。 算法:VGG-Net。 不同于AlexNet的地方是:VGG-Net使用更多的层,通常有16-19层,而AlexNet只有8层。同时,VGG-Net的所有 convolutional layer 使用同样大小的 convolutional filter,大小为 3 x 3。 算法:GoogLeNet。 提出的Inception结构是主要的创新点,这是(Network In Network)的结构,即原来的结点也是一个网络。 在单层卷积层上使用不同尺度的卷积核就可以提取不同尺寸的特征,单层的特征提取能力增强了。其使用之后整个网络结构的宽度和深度都可扩大,能够带来2-3倍的性能提升。 算法:ResNet。 ResNet引入了残差网络结构(residual network),通过在输出与输入之间引入一个shortcut connection,而不是简单的堆叠网络,这样可以解决网络由于很深出现梯度消失的问题,从而可可以把网络做的很深。这种方法目前也是业界最高水准了。 (2) 基于区域的场景分类; 首先通过目标候选候选区域选择算法,生成一系列候选目标区域,然后通过深度神经网络提取候选目标区域特征,并用这些特征进行分类。 算法:RCNN 技术路线:selective search + CNN + SVMs 算法:Fast-R-CNN 步骤:输入一幅图像和Selective Search方法生成的一系列Proposals,通过一系列卷积层和Pooling层生成feature map,然后用RoI(region ofineterst)层处理最后一个卷积层得到的feature map为每一个proposal生成一个定长的特征向量roi_pool5。 RoI层的输出roi_pool5接着输入到全连接层, 产生最终用于多任务学习的特征并用于计算多任务Loss。

全连接输出包括两个分支: 1.SoftMax Loss:计算K+1类的分类Loss函数,其中K表示K个目标类别。 2.RegressionLoss:即K+1的分类结果相应的Proposal的Bounding Box四个角点坐标值。 最终将所有结果通过非极大抑制处理产生最终的目标检测和识别结果。

算法:Faster-R-CNN: Faster-R-CNN算法由两大模块组成:1.PRN候选框提取模块 2.Fast R-CNN检测模块。 其中,RPN是全卷积神经网络,通过共享卷积层特征可以实现proposal的提取; FastR-CNN基于RPN提取的proposal检测并识别proposal中的目标。 (3) 基于上下文的场景分类: 这类方法不同于前面两种算法,而将场景图像看作全局对象而非图像中的某一对象或细节,这样可以降低局部噪声对场景分类的影响。 将输入图片作为一个特征,并提取可以概括图像统计或语义的低维特征。该类方法的目的即为提高场景分类的鲁棒性。因为自然图片中很容易掺杂一些随机噪声,这类噪声会对局部处理造成灾难性的影响,而对于全局图像却可以通过平均数来降低这种影响。 基于上下文的方法,通过识别全局对象,而非场景中的小对象集合或者准确的区域边界,因此不需要处理小的孤立区域的噪声和低级图片的变化,其解决了分割和目标识别分类方法遇到的问题。 算法:基于Gist的场景分类 步骤:

通过 Gist 特征提取场景图像的全局特征。Gist 特征是一种生物启发式特征,该特征模拟人的视觉,形成对外部世界的一种空间表示,捕获图像中的上下文信息。Gist 特征通过多尺度多方向 Gabor 滤波器组对场景图像进行滤波,将滤波后的图像划分为 4 × 4 的网格,然后各个网格采用离散傅里叶变换和窗口傅里叶变换提取图像的全局特征信息。用CNN 进一步学习更深层次的特征,并在 CNN 最高层进行场景分类 。

本文分享自微信公众号 - 机器学习入门与实战(datanlp)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界 | 怎么把 GPU 上训练的模型转到 TPU 或者 CPU 上去?DeepMind 发布新工具支招

    雷锋网 AI 科技评论按:DeepMind 有一支专门的科研平台团队(the Research Platform Team),他们的职责是为 AI 学术研究构建...

    AI科技评论
  • 业界 | 谷歌开源大规模神经网络模型高效训练库 GPipe

    AI 科技评论按:谷歌昨日在博客中宣布开源大规模神经网络模型高效训练库 GPipe,这是一款分布式机器学习库,可以让研究员在不调整超参数的情况下,部署更多的加速...

    AI科技评论
  • 机器学习算法Code Show——决策树

    上一篇文章机器学习算法复习手册——决策树在复习完基本概念之后,我给自己挖了一个坑:用python写一个决策树出来(注意,不是sklearn调包)。虽然说这个东西...

    beyondGuo
  • 学界 | AAAI 牵头示范如何正确地给中小学生教人工智能

    这些挖苦主要可以归为两类。第一类挖苦在于,即便以深度学习为代表的现代「人工智能」相关技术和工作持续火热,读博读硕申请火爆,国内外高校也在陆续设立人工智能专业和学...

    AI科技评论
  • 谷歌将把生物多样性研究人工智能引入Tensorflow Hub

    机器学习算法在生物多样性研究中有很多,但大都没有正确的归因或监督。为了提高学术水平,谷歌表示,它将发布与全球生物多样性信息基金(GBIF)、自然主义者和Visi...

    AiTechYun
  • 【NLP-ChatBot】能闲聊的端到端生成型聊天机器人背后都有哪些技术?

    我们之前介绍过,按照应用场景的不同,聊天机器人可以分为问答系统,对话系统以及闲聊机器人三类。今天我们就来详细讲一讲其中的生成型闲聊机器人。

    用户1508658
  • 亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约 7 亿实体数据、20 亿关系

    AI 科技评论按:继 2017 年 8 月份首度联合发布开放学术图谱(Open Academic Graph, OAG),近日,清华大学和微软研究院再度携手将 ...

    AI科技评论
  • 多图详解 DeepMind 的超人类水准星际争霸 AI 「AlphaStar」

    参加直播的 DeepMind 研究人员是 DeepMind 团队联合研发负责人 Oriol Vinyals 和 David Silver,后者也是 AlphaG...

    AI科技评论
  • 2018 年最棒的三篇 GAN 论文

    今年我很荣幸能参与到一个研究项目中,它要求我熟悉大量计算机视觉深度学习相关论文,让我深入到这个领域中学习,在此过程中,对于该领域在近两三年时间里所取得进步,我深...

    AI科技评论
  • 观点 | 预见未来:NLP将迎来黄金十年

    AI 科技评论按,本文转载自公众号“微软研究院 AI 头条”,雷锋网 AI 科技评论已获授权。

    AI科技评论

扫码关注云+社区

领取腾讯云代金券