基于图像分类任务的卷积神经网络首先将图片重新缩放并才裁剪到固定大小,如AlexNet和ResNet将图片缩放到256尺度并裁剪至224×224大小,然后将裁剪后的图像输入至网络训练。...YOLO的置信度是两个因子的乘积,预测框的准确度也反映在里面。边界框的大小与位置可以用4个值来表征:
(x,y,w,h),其中(x,y)是边界框的中心坐标,而w和h是边界框的宽与高。...中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值,并且单位是相对于单元格大小的。而边界框的w和h预测值是相对于整个图片的宽与高的比例,这样理论上4个元素的大小应该在[0,1]范围。...这样,每个边界框的预测值实际上包含5个元素:(x,y,w,h,c),其中前4个表征边界框的大小与位置,而最后一个值是置信度。...具体来说,对于第a个锚框,它的变换在a*4到a*4+3通道里。
?