首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Andrew Ng机器学习课程笔记--week11(图像识别&总结划重点)

Andrew Ng机器学习课程笔记--week11(图像识别&总结划重点)

作者头像
marsggbo
发布2018-01-23 18:08:53
7620
发布2018-01-23 18:08:53
举报

一、内容概要

  • Photo OCR
    • Problem Decription and pipeline(问题描述和流程图)
    • Sliding Windows(滑动窗口)
    • Getting Lots of Data and Artificial Data
    • Ceiling Analysis(上限分析):What part of the pipline to Work on Next

二、重点&难点

1. Problem Decription and pipeline

为了实现图像文字识别通常按如下流程图进行操作:

    1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
    1. 字符切分(Character segmentation)——将文字分割成一个个单一的字符
    1. 字符分类(Character recognition)——文字识别

2. Sliding Windows(滑动窗口)

滑动窗口是一项用来从图像中抽取对象的技术。 假使我们需要在一张图片中识别行人,首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行 人识别的图片上进行剪裁,然后将剪裁得到的切片交给模型,让模型判断是否为行人,然后在图片上滑动剪裁区域重新进行剪裁,将新剪裁的切片也交给模型进行判断,如此循环直至将图片全部检测完。一旦完成后,我们按比例放大剪裁的区域,再以新的尺寸对图片进行剪裁,将新剪裁的切片按比例缩小至模型所采纳的尺寸,交给模型进行判断,如此循环。

3. Getting Lots of Data and Artificial Data

机器学习要获得更好的效果就需要大量的数据来训练,但是有的数据并不是很方便的获得,所以可以在原有数据的基础上通过人工合成的方式来扩大数据。例如将已有的字符图片进行一些扭曲、旋转、模糊处理。

4. Ceiling Analysis:What part of the pipline to Work on Next

下面以图像文字识别流程图为例来解释上限分析的思想。

Text detection -> Character segmentation -> Character recognition

首先按照最开始的模型得出最终的系统识别准确率为72%。

之后我们人为的提高上面三个环节的准确率接近100%,然后观察系统准确率的变化。

例如我们在Text Detection这一步骤中人为的指定出文字所在位置,使得文字检测准确率达到100%,然后其他步骤不变,最后观察到系统准确率为89%,提高了17%。 其他同理,可以看到提高 文字识别(Character recognition) 这一步骤的准确率可以使得系统准确率达到100%,所以接下来的工作则是尽量提高文字识别这一步骤的准确率,而不是另外两个步骤。

最后一节课了,超级感谢吴大大~~~~~~~~~~~~~~~~~~~~~~ 附上整个课程所学的知识点,划重点了有没有!!!!

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-08-25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、内容概要
  • 二、重点&难点
    • 1. Problem Decription and pipeline
      • 2. Sliding Windows(滑动窗口)
        • 3. Getting Lots of Data and Artificial Data
          • 4. Ceiling Analysis:What part of the pipline to Work on Next
          相关产品与服务
          图像识别
          腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档