前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【普林斯顿博士论文】解决缺陷数据来构建现实世界的计算机视觉系统

【普林斯顿博士论文】解决缺陷数据来构建现实世界的计算机视觉系统

作者头像
数据派THU
发布2023-03-29 11:02:05
2190
发布2023-03-29 11:02:05
举报
文章被收录于专栏:数据派THU
代码语言:javascript
复制
来源:专知本文为论文介绍,建议阅读5分钟本文提出一个新的基准,通过数据增强具有可控偏差。对现有的偏差消除方法进行了彻底的比较,并提出了一种简单的方法,优于其他更复杂的对比方法。

计算机视觉系统正日益被部署到现实世界的应用中,例如自动驾驶汽车上的识别模型、演示软件中的字幕模型以及视觉搜索引擎背后的检索模型。在构建这些真实的计算机视觉系统时存在许多实际挑战,其中许多与数据的不完美有关。具体来说,现实世界的数据可能会因分散注意力的虚假相关性而产生偏差,不同类别存在不平衡的长尾数据,具有大量缺陷的噪声数据,等等。本文研究了如何在不同的视觉任务中解决三种常见的数据缺陷。

首先,研究了图像分类中的偏置问题。本文提出一个新的基准,通过数据增强具有可控偏差。对现有的偏差消除方法进行了彻底的比较,并提出了一种简单的方法,优于其他更复杂的对比方法。其次,研究了图像描述中的长尾问题。展示了现有的字幕模型如何更喜欢常见的概念,并由于长尾而生成过度通用的字幕。为解决该问题,在评估方面,提出了一种新的指标来同时捕捉唯一性和准确性。在建模方面,引入了一种推理时间重排序技术,以生成多样化和信息量大的标题。最后,对视频检索中的噪声问题进行了研究。展示了噪声注释如何在模型训练和评估中引入挑战。然后,我们提出一种简单而有效的多查询方法来解决这个问题。通过大量的实验表明,多查询训练可以带来优越的性能,而多查询评估可以更好地反映检索模型的真实能力。

https://dataspace.princeton.edu/bitstream/88435/dsp019p290d57c/1/Wang_princeton_0181D_14404.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档