计算机视觉有三大任务:分类(识别)、定位、检测,从左到右每个任务是下个任务的子任务,所以难度递增。...],...,[16,17,18]
△=1分组:[2,3,4],[5,6,7],[8,9,10],...,[17,18,19]
△=2分组:[3,4,5],[6,7,8],[9,10,11],...,[18,19,20...Inference自适应输入图片大小
训练模型时往往采用的是固定大小图片(后面的SPP-net、Fast R-CNN等模型通过SPP或ROI pooling可以允许输入大小可变),当inference阶段遇到比规定大小更大的图片时怎么办...同一幅图在6种不同缩放尺度下分别输入分类网络,每种尺度下选top k类别作为标定,用表示;
b. 对任意尺度s分别输入BB 回归网络,用表示每个类别对应的BB集合;
c. 将所有合并为大集合;
d....重复以下过程直到结束:
其中match_score为两个BB的中心点之间的距离及BB重合区域面积之和,box_merge为两个BB坐标均值,过程很好理解:所有分类(如可能有熊、鲸鱼等)的BB被放在一个大集合