, 如电商, 汽车, 动物我们一般要求框图是物体明显的边界, 而植物, 地标和菜品通常有可能是边界模糊, 需要涵盖绿叶, 背景和器皿, 红酒我们主要定位是酒标而不是酒瓶(酒标对红酒的识别更具判别性),...proposals; 2) backbone 采用当时主流的 AlexNet/VGG16 等模型; 3) 由于输入是 proposal, 直接复用分类任务设计的网络, 无 neck 设计; 4) 可以理解为典型的两阶段算法...近期, 我们组内工作 UP-DETR[32]已经向前迈出了无监督预训练检测模型的第一步. 下一步如何探索基于极少量人工标注框的半监督检测算法将更加有意义....将所有的垂类拆分成两组数据, 一组是具有表观一致性的垂类, 一组是无表观一致性的概念体垂类, 两组数据独立交替更新参数共享的检测网络(只有 backbone 和 neck 共享, 头部不共享) (2)...后续我们将重点借鉴 GFocal[25,26]将置信度重新定义为结合了框位置, 标签分类, 面积来综合度量的一个指标, 更加自适应的来指导模型训练, 更有利于最终的选框策略.