首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

2024年YOLO还可以继续卷 | MedYOLO是怎么从YOLO家族中一步一步走过来的?

在3D医学影像中进行物体定位的标准方法是使用分割模型对感兴趣的目标进行 Voxel 到 Voxel 的标注。虽然这种方法使模型具有很高的准确性,但也存在一些缺点。为医学影像生成 Voxel 级准确的标注是一个耗时的过程,通常需要多个专家来验证标签的质量。由于标注者之间的变异性,器官或病变的医学术准确的分割可能会出现结构边界不确定的问题,这可能会导致附近组织中包含无关信息或排除相关信息。即使有高质量的标签,分割模型在准确标记目标结构边界时可能会遇到困难,通常需要后处理来填充缺失的内部体积并消除伪预测目标。总之,这使得分割模型的训练成本过高,同时可能会限制下游诊断或分类模型的预测能力。

01

A Shape Transformation-based Dataset Augmentation Framework for Pedestrian Detection

基于深度学习的计算机视觉通常需要数据。许多研究人员试图用合成数据来增强数据集,以提高模型的稳健性。然而,增加流行的行人数据集,如加州理工学院和城市人,可能极具挑战性,因为真实的行人通常质量较低。由于遮挡、模糊和低分辨率等因素,现有的增强方法非常困难,这些方法通常使用3D引擎或生成对抗性网络(GAN)合成数据,以生成逼真的行人。与此不同的是,为了访问看起来更自然的行人,我们建议通过将同一数据集中的真实行人转换为不同的形状来增强行人检测数据集。因此,我们提出了基于形状变换的数据集增强(STDA)框架。 所提出的框架由两个后续模块组成,即形状引导变形和环境适应。在第一个模块中,我们引入了一个形状引导的翘曲场,以帮助将真实行人的形状变形为不同的形状。然后,在第二阶段,我们提出了一种环境感知混合映射,以更好地将变形的行人适应周围环境,获得更逼真的行人外观和更有益的行人检测增强结果。对不同行人检测基准的广泛实证研究表明,所提出的STDA框架始终比使用低质量行人的其他行人合成方法产生更好的增强结果。通过扩充原始数据集,我们提出的框架还将基线行人检测器在评估基准上提高了38%,实现了最先进的性能。

02

全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

机器之心专栏 作者:HJZ Salesforce 亚洲研究院推出了一站式视觉语言开源框架 LAVIS。 视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。 尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却

01
领券