开发环境 ·
软件版本信息:
Windows10 64位
Tensorflow1.15
Tensorflow object detection API 1.x
Python3.6.5
VS2015 VC++
CUDA10.0
硬件:
CPUi7
GPU 1050ti
如何安装tensorflow object detection API框架,看这里:
Tensorflow Object Detection API 终于支持tensorflow1.x与tensorflow2.x了
数据集处理与生成
首先需要下载数据集,下载地址为:
https://pan.baidu.com/s/1UbFkGm4EppdAU660Vu7SdQ
总计7581张图像,基于Pascal VOC2012完成标注。分为两个类别,分别是安全帽与人(hat与person),json格式如下:
item {
id: 1
name: 'hat'
}
item {
id: 2
name: 'person'
}
数据集下载之后,并不能被tensorflow object detection API框架中的脚本转换为tfrecord,主要是有几个XML跟JPEG图像格式错误,本人经过一番磨难之后把它们全部修正了。修正之后的数据运行下面两个脚本即可生成训练集与验证集的tfrecord数据,命令行如下:
这里需要注意的是create_pascal_tf_record.py 脚本的165行把
'aeroplane_' + FLAGS.set + '.txt')
修改为:
FLAGS.set + '.txt')
原因是这里的数据集没有做分类train/val。所以需要修改一下,修改完成之后保存。运行上述的命令行,就可以正确生成tfrecord,否则会遇到错误。
模型训练
基于faster_rcnn_inception_v2_coco对象检测模型实现迁移学习,首先需要配置迁移学习的config文件,对应的配置文件可以从:
research\object_detection\samples\configs
中发现,发现文件:
faster_rcnn_inception_v2_coco.config
之后,修改配置文件的中相关部分,关于如何修改,修改什么,可以看这里:
修完完成之后,在D盘下新建好几个目录之后,执行下面的命令行参数:
就会开始训练,总计训练40000 step。训练过程中可以通过tensorboard查看训练结果:
模型导出
完成了40000 step训练之后,就可以看到对应的检查点文件,借助tensorflow object detection API框架提供的模型导出脚本,可以把检查点文件导出为冻结图格式的PB文件。相关的命令行参数如下:
得到pb文件之后,使用OpenCV4.x中的tf_text_graph_faster_rcnn.py脚本,转换生成graph.pbtxt配置文件。最终得到:
- frozen_inference_graph.pb
- frozen_inference_graph.pbtxt
如何导出PB模型到OpenCV DNN支持看这里:
干货 | tensorflow模型导出与OpenCV DNN中使用
使用OpenCV DNN调用模型
在OpenCV DNN中直接调用训练出来的模型完成自定义对象检测,这里需要特别说明一下的,因为在训练阶段我们选择了模型支持600~1024保持比率的图像输入。所以在推理预测阶段,我们可以直接使用输入图像的真实大小,模型的输出格式依然是1x1xNx7,按照格式解析即可得到预测框与对应的类别。最终的代码实现如下:
import cv2 as cv
labels = ['hat', 'person']
model = "D:/safehat_train/models/train/frozen_inference_graph.pb"
config = "D:/safehat_train/models/train/frozen_inference_graph.pbtxt"
# 读取测试图像
image = cv.imread("D:/123.jpg")
h, w = image.shape[:2]
cv.imshow("input", image)
# 加载模型,执行推理
net = cv.dnn.readNetFromTensorflow(model, config)
blob = cv.dnn.blobFromImage(cv.resize(image, (w, h)), swapRB=True, crop=False)
net.setInput(blob)
detectOut = net.forward()
# 解析输出
classIds = []
confidences = []
boxes = []
for detection in detectOut[0,0,:,:]:
score = detection[2]
if score > 0.4:
left = detection[3]*w
top = detection[4]*h
right = detection[5]*w
bottom = detection[6]*h
classId = int(detection[1]) + 1
classIds.append(classId)
boxes.append([int(left), int(top), int(right), int(bottom)])
confidences.append(float(score))
# 非最大抑制
nms_indices = cv.dnn.NMSBoxes(boxes, confidences, 0.4, 0.4)
for i in range(len(nms_indices)):
index = nms_indices[i][0]
box = boxes[index]
cid = classIds[index]
if cid == 1:
cv.rectangle(image, (box[0], box[1]), (box[2], box[3]), (140, 199, 0), 4, 8, 0)
else:
cv.rectangle(image, (box[0], box[1]), (box[2], box[3]), (255, 0, 255), 4, 8, 0)
cv.putText(image, labels[cid-1], (box[0], box[1]), cv.FONT_HERSHEY_SIMPLEX, 0.75, (255, 0, 0), 2)
# 显示输出
cv.imshow("safetyhat-detection-demo", image)
cv.imwrite("D:/result123.png", image)
cv.waitKey(0)
cv.destroyAllWindows()
一些测试图像的运行结果如下:
可以看到第二张途中有误识别情况发生!可见模型还可以继续训练!
避坑指南:
1. 下载的公开数据集,记得用opencv重新读取一遍,然后resave为jpg格式,这个会避免在生成tfrecord时候的图像格式数据错误。
ValueError: Image format not JPEG
2. 公开数据集中xml文件的filename有跟真实图像文件名称不一致的情况,要程序处理一下。不然会遇到
Windows fatal exception: access violation error
3. 使用非最大抑制之后,
SystemError: <built-in function NMSBoxes> returned NULL without setting an error, 解决:boxes 必须是int类型,confidences必须是浮点数类型
参考资料:
https://github.com/njvisionpower/Safety-Helmet-Wearing-Dataset
https://github.com/opencv/opencv/wiki/Deep-Learning-in-OpenCV
https://github.com/tensorflow/models/tree/master/research/object_detection
因依老宿发心初
半学修心半读书
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有