YoloV4当中的Mosaic数据增强方法

文章来源：企鹅号 - 码农的后花园

上一期中讲解了图像分类和目标检测中的数据增强的区别和联系，这期讲解数据增强的进阶版- yolov4中的Mosaic数据增强方法以及CutMix。

前言

Yolov4的mosaic数据增强参考了CutMix数据增强方式, 是CutMix数据增强方法的改进版。不同于一般的数据增强的方式是对一张图片进行扭曲、翻转、色域变化，CutMix数据增强方式是对两张图片进行拼接变为一张新的图片，然后将拼接好了的图片传入到神经网络中去学习，如下图。

CutMix的处理方式比较简单，对一对图片做操作，简单讲就是随机生成一个裁剪框Box,裁剪掉A图的相应位置，然后用B图片相应位置的ROI放到A图中被裁剪的区域形成新的样本，计算损失时同样采用加权求和的方式进行求解。就是将图A一部分区域cut掉但不填充0像素，然后随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。

下图是使用CutMix方法对常见的数据集进行数据增强的表现，可以看到有明显的提升。

Mosaic数据增强方法

mosaic数据增强则利用了四张图片，对四张图片进行拼接，每一张图片都有其对应的框框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框框，然后我们将这样一张新的图片传入到神经网络当中去学习，相当于一下子传入四张图片进行学习了。论文中说这极大丰富了检测物体的背景！且在标准化BN计算的时候一下子会计算四张图片的数据！如下图所示：

实现过程

这里以对Voc2007数据集进行随机数据增强为例进行讲解，大致分为四步：

第一步：从Voc数据集中每次随机读取四张图片

第二步：分别对四张图片进行翻转（对原始图片进行左右的翻转）、缩放（对原始图片进行大小的缩放）、色域变化（对原始图片的明亮度、饱和度、色调进行改变）等操作。

操作完成之后然后再将原始图片按照第一张图片摆放在左上，第二张图片摆放在左下，第三张图片摆放在右下，第四张图片摆放在右上四个方向位置摆好。

3、进行图片的组合和框的组合

完成四张图片的摆放之后，我们利用矩阵的方式将四张图片它固定的区域截取下来，然后将它们拼接起来，拼接成一张新的图片，新的图片上含有框框等一系列的内容。

如上图可以看到我们将四张图片进行拼接的时候有很明显的边缘，横线和竖线就是分割的线，这个分割线是由我们人为事先预先设定好了的，在代码中由min_offset_x和min_offset_y去选取分割的线。

拼接完成之后得到的新的一张图片，我们可以看到拼接的图片的左上角的图相对于原图来说是少了的，因为拼接的时候被它右边的图覆盖掉了，拼接的时候很有可能也会把另外的图中的框框给覆盖掉，这些问题都会在最后的对框框进行处理：当图片的框框（或者图片本身）超出两张图片之间的边缘（也就是我们设置的分割线）的时候，我们就需要把这个超出分割线的部分框框或者图片的部分）处理掉，进行边缘处理。

代码实现

fromPILimportImage,ImageDraw

importnumpyasnp

frommatplotlib.colorsimportrgb_to_hsv,hsv_to_rgb

importmath

defrand(a=,b=1):

returnnp.random.rand() * (b - a) + a

defmerge_bboxes(bboxes,cutx,cuty):

merge_bbox = []

foriinrange(len(bboxes)):

forboxinbboxes[i]:

tmp_box = []

x1,y1,x2,y2 = box[],box[1],box[2],box[3]

ifi ==:

ify1 > cutyorx1 > cutx:

continue

ify2 >= cutyandy1

y2 = cuty

ify2 - y1

continue

ifx2 >= cutxandx1

x2 = cutx

ifx2 - x1

continue

ifi ==1:

ify2 < cutyorx1 > cutx:

continue

ify2 >= cutyandy1

y1 = cuty

ify2 - y1

continue

ifx2 >= cutxandx1

x2 = cutx

ifx2 - x1

continue

ifi ==2:

ify2 < cutyorx2 < cutx:

continue

ify2 >= cutyandy1

y1 = cuty

ify2 - y1

continue

ifx2 >= cutxandx1

x1 = cutx

ifx2 - x1

continue

ifi ==3:

ify1 > cutyorx2 < cutx:

continue

ify2 >= cutyandy1

y2 = cuty

ify2 - y1

continue

ifx2 >= cutxandx1

x1 = cutx

ifx2 - x1

continue

tmp_box.append(x1)

tmp_box.append(y1)

tmp_box.append(x2)

tmp_box.append(y2)

tmp_box.append(box[-1])

merge_bbox.append(tmp_box)

returnmerge_bbox

defget_random_data(annotation_line,input_shape,random=True,hue=.1,sat=1.5,val=1.5,proc_img=True):

'''random preprocessing for real-time data augmentation'''

h,w = input_shape

min_offset_x =0.4

min_offset_y =0.4

scale_low =1-min(min_offset_x,min_offset_y)

scale_high = scale_low +0.2

image_datas = []

box_datas = []

index =

place_x = [,,int(w * min_offset_x),int(w * min_offset_x)]

place_y = [,int(h * min_offset_y),int(w * min_offset_y),]

forlineinannotation_line:

#每一行进行分割

line_content = line.split()

#打开图片

image = Image.open(line_content[])

image = image.convert("RGB")

#图片的大小

iw,ih = image.size

#保存框的位置

box = np.array([np.array(list(map(int,box.split(','))))forboxinline_content[1:]])

# image.save(str(index)+".jpg")

#是否翻转图片

flip = rand()

ifflipandlen(box) >:

image = image.transpose(Image.FLIP_LEFT_RIGHT)

box[:,[,2]] = iw - box[:,[2,]]

#对输入进来的图片进行缩放

new_ar = w / h

scale = rand(scale_low,scale_high)

ifnew_ar

nh =int(scale * h)

nw =int(nh * new_ar)

else:

nw =int(scale * w)

nh =int(nw / new_ar)

image = image.resize((nw,nh),Image.BICUBIC)

#进行色域变换

hue = rand(-hue,hue)

sat = rand(1,sat)ifrand()

val = rand(1,val)ifrand()

x = rgb_to_hsv(np.array(image) /255.)

x[...,] += hue

x[...,][x[...,] >1] -=1

x[...,][x[...,]

x[...,1] *= sat

x[...,2] *= val

x[x >1] =1

x[x

image = hsv_to_rgb(x)

image = Image.fromarray((image *255).astype(np.uint8))

#将图片进行放置，分别对应四张分割图片的位置

dx = place_x[index]

dy = place_y[index]

new_image = Image.new('RGB',(w,h),(128,128,128))

new_image.paste(image,(dx,dy))

image_data = np.array(new_image) /255

# Image.fromarray((image_data*255).astype(np.uint8)).save(str(index)+"distort.jpg")

index = index +1

box_data = []

#对box进行重新处理

iflen(box) >:

np.random.shuffle(box)

box[:,[,2]] = box[:,[,2]] * nw / iw + dx

box[:,[1,3]] = box[:,[1,3]] * nh / ih + dy

box[:,:2][box[:,:2]

box[:,2][box[:,2] > w] = w

box[:,3][box[:,3] > h] = h

box_w = box[:,2] - box[:,]

box_h = box[:,3] - box[:,1]

box = box[np.logical_and(box_w >1,box_h >1)]

box_data = np.zeros((len(box),5))

box_data[:len(box)] = box

image_datas.append(image_data)

box_datas.append(box_data)

img = Image.fromarray((image_data *255).astype(np.uint8))

forjinrange(len(box_data)):

thickness =3

left,top,right,bottom = box_data[j][:4]

draw = ImageDraw.Draw(img)

foriinrange(thickness):

draw.rectangle([left + i,top + i,right - i,bottom - i],outline=(255,255,255))

img.show()

#将图片分割，放在一起

cutx = np.random.randint(int(w * min_offset_x),int(w * (1- min_offset_x)))

cuty = np.random.randint(int(h * min_offset_y),int(h * (1- min_offset_y)))

new_image = np.zeros([h,w,3])

new_image[:cuty,:cutx,:] = image_datas[][:cuty,:cutx,:]

new_image[cuty:,:cutx,:] = image_datas[1][cuty:,:cutx,:]

new_image[cuty:,cutx:,:] = image_datas[2][cuty:,cutx:,:]

new_image[:cuty,cutx:,:] = image_datas[3][:cuty,cutx:,:]

#对框进行进一步的处理

new_boxes = merge_bboxes(box_datas,cutx,cuty)

returnnew_image,new_boxes

defnormal_(annotation_line,input_shape):

'''random preprocessing for real-time data augmentation'''

line = annotation_line.split()

image = Image.open(line[])

box = np.array([np.array(list(map(int,box.split(','))))forboxinline[1:]])

iw,ih = image.size

image = image.transpose(Image.FLIP_LEFT_RIGHT)

box[:,[,2]] = iw - box[:,[2,]]

returnimage,box

if__name__ =="__main__":

withopen("2007_train.txt")asf:

lines = f.readlines()

a = np.random.randint(,len(lines))

# index = 0

# line_all = lines[a:a+4]

# for line in line_all:

# image_data, box_data = normal_(line,[416,416])

# img = image_data

# for j in range(len(box_data)):

# thickness = 3

# left, top, right, bottom = box_data[j][0:4]

# draw = ImageDraw.Draw(img)

# for i in range(thickness):

# draw.rectangle([left + i, top + i, right - i, bottom - i],outline=(255,255,255))

# img.show()

# # img.save(str(index)+"box.jpg")

# index = index+1

#传入四张图片

# line = lines[a:a + 4]

line = lines[:4]

image_data,box_data = get_random_data(line,[416,416])

img = Image.fromarray((image_data *255).astype(np.uint8))

forjinrange(len(box_data)):

thickness =3

left,top,right,bottom = box_data[j][:4]

draw = ImageDraw.Draw(img)

foriinrange(thickness):

draw.rectangle([left + i,top + i,right - i,bottom - i],outline=(255,255,255))

img.show()

# img.save("box_all.jpg")

发表于: 2020-08-082020-08-08 12:20:36
原文链接：https://kuaibao.qq.com/s/20200808A0AZ4700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

YoloV4当中的Mosaic数据增强方法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐