专栏首页嘘、小点声按部就班的吴恩达机器学习网课用于讨论(16)

按部就班的吴恩达机器学习网课用于讨论(16)

图片文字识别-问题描述和流程图

针对识别图片中的文本信息识别,分为文本区域检测,之后是将文本区域的字符分割,分割以后开始进行字符识别。

滑动窗口

滑动窗口是用来定位文字位置、行人位置等。

以行人检测为例子:

1.做滑动窗口前,首先进行预训练(训练样本为固定大小的图片),获得一个能识别行人的模型。

2.然后使用该模型,在原始图片上按照一定步长,尺寸,在图片中进行窗口滑动,剪裁取块。

3.将取块的图片放缩到模型使用的大小,输入该模型,判断有行人的地方图片与滑动位置做好标记,处理后得到行人可能位置。

4.换用不同的步长、尺寸,重复2-4过程直到检测完毕,得到全部位置。

不仅可以用于行人检测,在字符检测、字符分割方面,也有应用。

字符位置检测的方法和行人检测相同,但是仍然需要将位置进行一些噪声过滤,以确定真实的字符位置信息。

得到字符位置信息后,也再预训练一个模型,用于判定是否为字符分割点。使用滑动窗口的方案,得到分割点,得到分割后的字符。

然后再使用一个预训练好的模型,识别字符即可。

获取大量数据和手工数据合成

在训练模型获得的结果不够好,而通过绘制曲线等方法,分析出是数据量不够导致的问题,那么需要制作数据集了。

1.制作数据集可以从0开始,使用一些方法自己制作,然后ps,剪裁等等。

2.如果本身具有数据集,也可以使用将原始数据集进行扭曲,旋转,加噪声,液化等方法,得到新的样本,作为数据集。

3.雇人做数据集,这就算了吧。

上限分析-流程图中哪部分需要提升

上限分析用于确定哪部分的算法进行优化后,整体系统性能具有较大提升。

在下图中,图像中文字识别有三步操作,对应不同的模型方法,最终得到了整个系统,得到了72%的准确率。

现在,使用手工的方法,让文本位置检测的模型正确率为100%(比如采用那些该部分识别率100%的特定数据集输入系统中),然后再评价一下系统,得到了89%的准确率,即如果优化了文本位置检测模型,整个系统有较大的提升。

在以上基础上,如果再调整字符分割模型为100%,整体模型只提升1%,则该部分对整体影响不大,不太需要花费精力去优化。

在前面基础上,再调整字符识别部分,而最终系统准确率提升到100%,那么该整体模型中的字符识别模型,也是需要进行优化的。

在人脸识别的过程中,也是有这样的步骤。进行每个模块的100%手工调制,判断该部分对整体性能的影响,从而判断该部分是否需要花费精力优化。下图为6部分的验证工作。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ssh交叉编译安装提示代码块临时

    https://blog.csdn.net/ctbinzi/article/details/5929800

    嘘、小点声
  • MYSQL约束

    select * from std_old order by age asc;#对表std_old进行age字段升序排列

    嘘、小点声
  • java学习与应用(3.5)--网络、流、方法引用

    C/S结构,B/S结构。TCP/IP传输控制协议/网络协议(面向连接,三次握手,无差错传输)。UDP用户数据报协议(无连接,发送端不确认接收端是否存在,64kb...

    嘘、小点声
  • 【C++新特性】C++17结构化绑定

    另一个比较有意思的使用地方在于可以增加代码可读性,例如输出map中所有的键值对。map如下:

    公众号guangcity
  • logstash配置codec插件-多行模式

    用途 应用日志多行打印 配置logstash input { file { path => ["/data/test/test/test...

    苦咖啡
  • 老男孩Python全栈开发(92天全)视频教程 自学笔记07

    玩蛇的胖纸
  • 使用 Tensorflow 物体检测来玩射击游戏《反恐精英》

    本篇文章我将介绍如何使用TensorFlow目标检测模型来玩经典FPS游戏——“反恐精英”。

    AI研习社
  • 干货 | 使用 Tensorflow 物体检测来玩射击游戏《反恐精英》

    方才,我偶然发现了这样一个有趣的项目。文章作者是利用网络摄像头玩经典游戏“格斗之王”。他借助网络摄像头记录的信息、结合CNN和RNN的使用来识别踢打和拳击的动作...

    AI科技评论
  • 交叉柱形图

    今天继续跟大家分享一组交叉柱形图的制作技巧! 该图表是从一本图表书中看到的,可以在同一幅图表中以两种视角展示同一组年度数据指标,步骤相对比较复杂,甚至有点炫技之...

    数据小磨坊
  • 当北京程序员遇上首席科学家

    #老马之夜#北京站圆满结束,雷小达和你分享那些精彩瞬间。 马丁·福勒(Martin Fowler): 1963年生于英格兰沃尔索耳,是一个软件开发方面的著作者和...

    ThoughtWorks

扫码关注云+社区

领取腾讯云代金券