faster rcnn:assert (boxes[:, 2] >= boxes[:, 0]).all()分析塈VOC2007 xml坐标定义理解

在进行faster rcnn训练的时候,报了一个断言错误

File “/py-faster-rcnn/tools/../lib/datasets/imdb.py”, line 108, in append_flipped_images assert (boxes[:, 2] >= boxes[:, 0]).all() AssertionError

参照这篇文章,找到了问题的原因,是矩形标注的问题: 《解决faster-rcnn中训练时assert(boxes[:,2]>=boxes[:,0]).all()的问题》

解决问题的办法

这篇博客 《解决faster-rcnn中训练时assert(boxes[:,2]>=boxes[:,0]).all()的问题》 中对于问题的发生的原因说得比较明白,但对于决问题提出的办法却未必可取,文中提供了三个方法,对于方法2,3不做讨论,这取决于自己的实际需要。但方法1我认为却是不可取的,以下截图是方法1的说明:

意思就是当x2<x1时,直接将x1置为0

附append_flipped_images代码

    def append_flipped_images(self):
        num_images = self.num_images
        widths = self._get_widths()
        for i in xrange(num_images):
            boxes = self.roidb[i]['boxes'].copy()
            oldx1 = boxes[:, 0].copy()
            oldx2 = boxes[:, 2].copy()
            boxes[:, 0] = widths[i] - oldx2 - 1
            boxes[:, 2] = widths[i] - oldx1 - 1
            assert (boxes[:, 2] >= boxes[:, 0]).all()
            entry = {'boxes' : boxes,
                     'gt_overlaps' : self.roidb[i]['gt_overlaps'],
                     'gt_classes' : self.roidb[i]['gt_classes'],
                     'flipped' : True}
            self.roidb.append(entry)
        self._image_index = self._image_index * 2

这个办法很粗暴,相当于修改了标注矩形的尺寸和位置, 纯粹是为了消除Asser错误而写的,治标不治本。 就我个人而言,我没有采用文中的任何办法, 我的原则是非万不得已,尽量不修改第三方的代码,因为我的数据集xml文件是我自己用java写的工具生成的,所以我修改了我生成xml文件的代码,标注矩形的坐标按VOC2007的要求写是1-based的就能解决这个问题。 在解决这个问题的过程中也搞清楚了,VOC2007 xml标注格式中矩形坐标的定义方式。

0-based

如上文所说,通过py-faster-rcnn/lib/datasets/pascal_voc.py的_load_pascal_annotation函数中,下面这段代码,可以知道,VOC2007 的矩形标注坐标是以1为基准的(1-based),而我们在处理图像坐标都是0起始的(0-based)。 所以在这里才要对从xml文件中读取的xmin,ymin,xmax,ymax 统统减1将坐标变为我们做数据处理时所需要的0-based坐标。

# py-faster-rcnn/lib/datasets/pascal_voc.py (line 207)
            # Make pixel indexes 0-based
            x1 = float(bbox.find('xmin').text) - 1
            y1 = float(bbox.find('ymin').text) - 1
            x2 = float(bbox.find('xmax').text) - 1
            y2 = float(bbox.find('ymax').text) - 1
            cls = self._class_to_ind[obj.find('name').text.lower().strip()]
            boxes[ix, :] = [x1, y1, x2, y2]
            gt_classes[ix] = cls
            overlaps[ix, cls] = 1.0
            seg_areas[ix] = (x2 - x1 + 1) * (y2 - y1 + 1)

xmin,ymin,xmax,ymax的含义

对于一个矩形(x,y,w,h)定义,xmin,ymin,xmax,ymax的准确含义是什么呢?, xmin,ymin一看就明白,我们理解它为矩形的左上角坐标(x,y),那么xmax,ymax是什么呢? 根据上面的python代码最后一行,就可以推断应该是:

xmax=x+w-1,ymax=y+h-1

之前一直被java.swt.RectangularShape中的getMaxX(),getMaxY()方法误导,少减了1: 以下是java.swt.RectangularShape中getMaxX()方法的实现代码

    public double getMaxX() {
        return getX() + getWidth();
    }

因为这个想当然的错误理解,只是少减了个1,在做训练数据集的时候走了一些弯路:当标注矩形的边与图像的边缘重合的时候,也会产生标题中的Assert断言错误。 所以生成xml时,矩形坐标的计算应该如下java代码:

// dom4j生成annotation xml的java代码片段(AnnRect为java.swt.Rectangle的子类)
    /**
     * 生成矩形描述对象,矩形坐标为1-base
     * @param rect
     * @return
     */
    private Element toElement(AnnRect rect) {
        Element obj = DocumentHelper.createElement("object");
        obj.addElement("name").addText(IadbHandler.iadb.getAnnNames().get(rect.annID));
        obj.addElement("pose").addText("Unspecified");
        obj.addElement("truncated").addText("0");
        obj.addElement("difficult").addText("0");
        // 生成以1为基准的矩形坐标(1-based)
        appendChildNodes(obj.addElement("bndbox"),
                createNode("xmin", rect.x + 1), 
                createNode("ymin", rect.y + 1), 
                createNode("xmax", rect.x + rect.width),
                createNode("ymax", rect.y + rect.height)
        );
        return obj;
    }

对caffe这样的深度学习模型,训练数据的矩形尺寸相差一个像素,有影响吗? 这个很难说,但我知道我的训练数据中有不少矩形是24x24的,对于这么小的矩形,尺寸相差一个像素,就可能损失了4%的信息量。 出于对训练数据质量的要求,我还是要讲究一下。

矩形越界

如果你已经注意到了上面的这个问题,已经将你的标注xml中的坐标统一为1-based坐标了,但在执行训练的时候还是会有上面的Assert错误,那么就要好好检查你的标注数据中,是不是有超出图像范围的矩形。如果有,一定要修正。

训练缓存清空

如果你确定没有越界的矩形却还是会报这个Assert错误,那么有可能是缓冲区中的数据乱了。 把py-faster-rcnn/data/cache中的文件和 py-faster-rcnn/data/VOCdevkit2007/annotations_cache中的文件统统删除(如果有的话),再来试试吧。我就因为这个问题被折腾了一天。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

拉格朗日插值

存在性和唯一性的证明以后再补。。。。 拉格朗日插值 拉格朗日插值,emmmm,名字挺高端的:joy: 它有什么应用呢? 我们在FFT中讲到过 设n-1次多项式为...

30570
来自专栏数据结构与算法

27:单词翻转

27:单词翻转 总时间限制: 1000ms 内存限制: 65536kB描述 输入一个句子(一行),将句子中的每一个单词翻转后输出。 输入只有一行,为一个...

43770
来自专栏机器学习和数学

[编程经验] Tensorflow中的共享变量机制小结

今天说一下tensorflow的变量共享机制,首先为什么会有变量共享机制? 这个还是要扯一下生成对抗网络GAN,我们知道GAN由两个网络组成,一个是生成器网络G...

84830
来自专栏Java 源码分析

平衡搜索树

2-3树 ​ 其实仔细来看2-3树好像是 B 树的一个特例,它规定了一个节点要么有一个 key 要么有两个 key。 如果有一个 key 那么他就有两个子...

32190
来自专栏C语言及其他语言

【每日一题】

笨小猴的词汇量很小,所以每次做英语选择题的时候都很头疼。但是他找到了一种方法,经试验证明,用这种方法去选择选项的时候选对的几率非常大! 这种方法的具体描述如下:...

11120
来自专栏数说工作室

函数玩一玩 | 【SAS Says·扩展篇】IML:2.函数

【SAS Says·扩展篇】IML 分6集,回复【SASIML】查看全部: 入门 | SAS里的平行世界 函数 | 函数玩一玩 编程 | IML的条件与循环 模...

39390
来自专栏尾尾部落

[剑指offer] 数值的整数次方 [剑指offer] 数值的整数次方

给定一个double类型的浮点数base和int类型的整数exponent。求base的exponent次方。

9330
来自专栏编程

扣丁学堂浅谈Python视频教程之random模块详解

今天扣丁学堂小编给大家详细介绍一下关于Python视频教程之random模块详解,,首先用于生成伪随机数之所以称之为伪随机数,是因为真正意义上的随机数(或者随机...

238100
来自专栏数据结构与算法

07:矩阵归零消减序列和

07:矩阵归零消减序列和 总时间限制: 1000ms 内存限制: 65536kB描述 给定一个n*n的矩阵(3 <= n <= 100,元素的值都是非负整数...

40160
来自专栏数据结构与算法

洛谷P1887 乘积最大3

题目描述 请你找出M个和为N的正整数,他们的乘积要尽可能的大。 输出字典序最小的一种方案。 输入输出格式 输入格式: 一行,两个正整数N,M 输出格式: M个...

36980

扫码关注云+社区

领取腾讯云代金券