; 3) 人工修正中等置信度的 bbox 的类别在时间和金钱成本上依然不容忽视....对于扫模式和相册模式(在线检测环节), 我们充分模拟用户的视觉注意力中心, 将检测框的位置, 置信度, 物体面积进行加权组合得到每个框的最终排序分数, 输出用户最有可能的想要扫描的物体....对于离线入库模式来说, 视觉中心的定义是根据商家售卖商品的品牌来确定的, 比如图中是售卖百褶裙, 那么百褶裙就是需要检测的框, 而上衣/鞋子就是需要去除的干扰框, 如何将文本标题和检测框进行匹配起来,...有效的完成入库操作, 我们将重点借鉴 CLIP[33]来优化该模式下的选框策略....图3.4 微信扫一扫识物不同模式下的选框策略
下图 3.5 所示. 后续我们小组对该方法进一步进行优化, 将检测的置信度, 检索的距离嵌入一个网络进行有效的融合, 得到最终的类别排序.