一文解决OpenCV训练分类器制作xml文档的所有问题

一 前言

关于训练分类器制作XML文档时需要的两个exe应用程序的解释。

  opencv_createsamples :用来准备训练用的正样本数据和测试数据。opencv_createsamples 能够生成能被opencv_haartraining 和 opencv_traincascade 程序支持的正样本数据。它的输出为以 *.vec 为扩展名的文件,该文件以二进制方式存储图像。   opencv_traincascade :支持 Haar和 LBP(Local Binary Patterns) 两种特征,并易于增加其他的特征。opencv_haartraining 是一个将被弃用的程序(Opencv3.0版本中没有)。opencv_traincascade 可以旧格式导出选练好的级联分类器。

二 训练

整个过程分为两步:

  1. 创建样本 样本的创建见参考文献1
  2. 训练分类器 命令:
opencv_traincascade.exe  -data data -vec D:/Opencv/build/x64/vc12/bin/a.vec -bg H:/negdata/bg.txt –numPos 10 –numNeg 100 -numStages 4 -w 32 -h 32  -featureType HAAR -precalcValBufSize 1 -precalcIdxBufSize 1

三 opencv_traincascade.exe用到的参数及解释

一、训练时存储在变量中的参数(9个参数)

参数

说明

data

训练的分类器的存储目录

vec

正样本文件,由open_createsamples.exe生成,正样本文件后缀名为.vec

bg

负样本说明文件,主要包含负样本文件所在的目录及负样本文件名

numPos

每级分类器训练时所用到的正样本数目,应小于vec文件中正样本的数目,具体数目限制条件为:numPos+(numStages-1)numPos(1-minHitRate)<=vec文件中正样本的数目

numNeg

每级分类器训练时所用到的负样本数目,可以大于-bg指定的图片数目

numStages

训练分类器的级数,强分类器的个数

precalcValBufSize

缓存大小,用于存储预先计算的特征值,单位MB

precalcIdxBufSize

缓存大小,用于存储预先计算的特征索引,单位MB

baseFormatSave

仅在使用Haar特征时有效,如果指定,级联分类器将以老格式存储

二、存储在参数类中的参数()

1、存储CvCascadeParams的对象中的参数(4个参数)

参数

说明

stageType

级联类型,目前只能取BOOST

featureType

训练使用的特征类型,目前支持的特征有Haar,LBP和HOG

w

训练的正样本的宽度,Haar特征的w和h一般为20,LBP特征的w和h一般为24,HOG特征的w和h一般为64

h

训练的正样本的高

2、存储在CvCascadeBoostParams的对象中的参数(6个参数)

参数

说明

bt

训练分类器采用的Adaboost类型

minHitRate

影响每个强分类器阈值,每一级分类器最小命中率,表示每一级强分类器对正样本的的分类准确率

maxFalseAlarm

最大虚警率,影响弱分类器的阈值,表示每个弱分类器将负样本误分为正样本的比例,一般默认值为0.5

weightTrimRate

0-1之间的阈值,影响参与训练的样本,样本权重更新排序后(从小到大),从前面累计权重小于(1-weightTrimRate)的样本将不参与下一次训练,一般默认值为0.95

maxDepth

每一个弱分类器决策树的深度,默认是1,是二叉树(stumps),只使用一个特征。

maxWeakCount

每级强分类器中弱分类器的最大个数,当FA降不到指定的maxFalseAlarm时可以通过指定最大弱分类器个数停止单个强分类器

mode

值为BASIC、CORE、ALL三种,根据值不同采用不同的Haar特征,BASIC是基本的Haar特征,CORE是所有的上下Haar特征,ALL是使用所有的Haar特征

四 遇到问题一:

  在用opencv_traincascade训练分类器的时候,遇到了报错如下: Train dataset for temp stage can not be filled. Branch training terminated.

  看下面cascadeclassifier.cpp的源代码:

for( int i = startNumStages; i < numStages; i++ )
    {
        cout << endl << "===== TRAINING " << i << "-stage =====" << endl;
        cout << "<BEGIN" << endl;

        if ( !updateTrainingSet( tempLeafFARate ) )
        {
        cout << "Train dataset for temp stage can not be filled. "
            "Branch training terminated." << endl;
        break;
    } 
    ...
bool CvCascadeClassifier::updateTrainingSet( double& acceptanceRatio)
{
    int64 posConsumed = 0, negConsumed = 0;
    imgReader.restart();
    int posCount = fillPassedSamples( 0, numPos, true, posConsumed );
    if( !posCount )
        return false;
    cout << "POS count : consumed   " << posCount << " : " << (int)posConsumed << endl;

    int proNumNeg = cvRound( ( ((double)numNeg) * ((double)posCount) ) / numPos ); // apply only a fraction of negative samples. double is required since overflow is possible
    int negCount = fillPassedSamples( posCount, proNumNeg, false, negConsumed );
    if ( !negCount )
        return false;

    curNumSamples = posCount + negCount;
    acceptanceRatio = negConsumed == 0 ? 0 : ( (double)negCount/(double)(int64)negConsumed );
    cout << "NEG count : acceptanceRatio    " << negCount << " : " << acceptanceRatio << endl;
    return true;
}

1)负样本描述文件neg.txt不能带路径名,即 : -bg neg.txt 是合法的, -bg negdata/neg.txt是非法的。所以必须把neg.txt文件跟exe文件放在同一个目录下 2)当切换了操作系统时,会因为txt文件的格式问题而导致了负样本读取失败。比如:在windows操作系统下生出了neg.txt,但是在ubuntu下进行训练,这样就会导致错误,这是因为windows下txt文件换行符’\r’在ubuntu下无法识别

五 遇到问题二:

  在用opencv_traincascade训练分类器的时候,遇到了报错如下: “Cascade classifier can’t be trained. Check the used training parameters.”

  正样本数量必须大于10,需要重新创建数据集并重新试验。

  N 为训练层数   HR 击中率,   FA 虚警,只有当每一层训练的FA低于你的命令中声明的maxfalsealarm数值才会进入下一层训练

六 遇到问题三:

  1.如果出现 Parameters can not be written, because file traincascade/params.xml can not be opened 错误,则自己需要手动创建一个文件夹 traincascade;   2.如果出现如下问题.   Traincascade Error:Bad argument(Can not get new positive sample.The most possible reason is insufficient count of samples in given vec-file.   记得一定要numPos小于vec_file文件里面的数 一般numPos为0.9*num_in_vec或者为0.8*num_in_vec

七 参考文献:

1.http://blog.csdn.net/kevin_ut/article/details/5838389 2.http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/user_guide/ug_traincascade.html#id9 3.http://answers.opencv.org/question/16868/error-in-train-casacde/ 4.http://blog.csdn.net/xidianzhimeng/article/details/10470839

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

再免费多看一章--k-means++

在k-means算法里开始选取的聚类中点是随机的,每次都会照成不同的聚类结果。有一个解决方案叫做k-means++,可以有效的选择初始聚类中心点。参考 http...

2747
来自专栏利炳根的专栏

学习笔记CB001:NLTK库、语料库、词概率、双连词、词典

聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评...

25710
来自专栏帮你学MatLab

《Experiment with MATLAB》读书笔记(五)

读书笔记(五) 这是第五部分线性方程求解 %% 前除 format bank A = [3 12 1; 12 0 2; 0 2 3] ...

3076
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第02章 一个完整的机器学习项目(下)选择并训练模型模型微调启动、监控、维护系统实践!练习

大多机器学习算法不能处理特征丢失,因此先创建一些函数来处理特征丢失的问题。前面,你应该注意到了属性total_bedrooms有一些缺失值。有三个解决选项:

1042
来自专栏月色的自留地

从锅炉工到AI专家(10)

2035
来自专栏大数据风控

R中时间序列分析-趋势分析Trend

趋势分析(Trend) 常用趋势的数学函数 线性函数 y=ax+b 指数函数 y=a^x 二次函数 y=ax^2+bx+c 曲线拟合方法 nls...

2068
来自专栏Spark学习技巧

SparkML模型选择(超参数调整)与调优

Spark ML模型选择与调优 本文主要讲解如何使用Spark MLlib的工具去调优ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和管...

3295
来自专栏奇点大数据

Pytorch神器(3)

上次我们的连载讲到用最简便的方法,也就是pip方法安装Pytorch。大家都成功了吧。

891
来自专栏成长道路

降维:主成分分析(PCA)

定义:可以将特征向量投影到低维空间,实现对特征向量的降维 步骤: 1.数据预处理。这里预处理包含俩个部分:均值归一化和属性范围调整。均值归一化是相应属性减去平均...

2230
来自专栏目标检测和深度学习

手把手教你搭建目标检测器-附代码

982

扫码关注云+社区