首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AiCharm >每日学术速递9.6

每日学术速递9.6

作者头像
AiCharm
发布2023-09-06 16:44:07
1420
发布2023-09-06 16:44:07
举报

1.FACET: Fairness in Computer Vision Evaluation Benchmark

标题:FACET:计算机视觉评估基准的公平性

作者:Laura Gustafson, Chloe Rolland, Nikhila Ravi, Quentin Duval, Aaron Adcock, Cheng-Yang Fu, Melissa Hall, Candace Ross

文章链接:https://arxiv.org/abs/2309.00035

项目代码:https://facet.metademolab.com/

摘要:

计算机视觉模型已知性别和肤色等属性之间的性能差异。这意味着在分类和检测等任务中,根据图像中人员的人口统计数据,某些类别的模型性能会有所不同。这些差异已被证明是存在的,但到目前为止,还没有一种统一的方法来衡量计算机视觉模型常见用例的这些差异。我们提出了一个名为 FACET(计算机视觉评估中的公平性)的新基准,这是一个包含 32k 图像的大型公开评估集,适用于一些最常见的视觉任务 - 图像分类、对象检测和分割。对于 FACET 中的每张图像,我们聘请了专家评审员来手动注释与人物相关的属性,例如感知的肤色和头发类型,手动绘制边界框并标记细粒度的与人物相关的类别,例如唱片骑师或吉他手。此外,我们使用 FACET 来对最先进的视觉模型进行基准测试,并更深入地了解跨敏感人口统计属性的潜在绩效差异和挑战。通过收集详尽的注释,我们使用单一人口统计属性以及使用交叉方法(例如头发颜色和感知肤色)的多个属性来探索模型。我们的结果表明,分类、检测、分割和视觉基础模型在人口统计属性和属性交叉点上表现出性能差异。这些危害表明,并非数据集中代表的所有人在这些视觉任务中都得到公平和公正的待遇。我们希望使用我们的基准的当前和未来结果将有助于建立更公平、更强大的视觉模型。 FACET 可通过此 https URL 公开获取

2.VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation

标题:VideoGen:一种用于生成高清文本到视频的参考引导潜在扩散方法

作者:Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang

文章链接:https://arxiv.org/abs/2309.00398

项目代码:https://github.com/microsoft/AdaM

摘要:

在本文中,我们提出了 VideoGen,一种文本到视频的生成方法,它可以使用参考引导的潜在扩散生成具有高帧保真度和强时间一致性的高清视频。我们利用现成的文本到图像生成模型(例如稳定扩散)从文本提示生成具有高内容质量的图像,作为指导视频生成的参考图像。然后,我们引入了一个以参考图像和文本提示为条件的高效级联潜在扩散模块,用于生成潜在视频表示,然后是基于流的时间上采样步骤以提高时间分辨率。最后,我们通过增强型视频解码器将潜在视频表示映射为高清视频。在训练过程中,我们使用真实视频的第一帧作为参考图像来训练级联潜在扩散模块。我们的方法的主要特点包括:由文本到图像模型生成的参考图像提高了视觉保真度;以它为条件使得扩散模型更加专注于视频动态的学习;视频解码器是在未标记的视频数据上进行训练的,从而受益于易于获得的高质量视频。 VideoGen 在定性和定量评估方面树立了文本到视频生成的最新技术。

3.CityDreamer: Compositional Generative Model of Unbounded 3D Cities

标题:CityDreamer:无界 3D 城市的组合生成模型

作者:Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu

文章链接:https://arxiv.org/abs/2309.00610

项目代码:https://infinitescript.com/project/city-dreamer

摘要:

近年来,广泛的研究集中在 3D 自然场景生成上,但 3D 城市生成领域还没有得到太多的探索。这是由于3D城市生成带来了更大的挑战,主要是因为人类对城市环境的结构扭曲更加敏感。此外,生成 3D 城市比 3D 自然场景更复杂,因为与自然场景中树木等对象相对一致的外观相比,建筑物作为同一类对象表现出更广泛的外观。为了应对这些挑战,我们提出了 CityDreamer,这是一种专门为无界 3D 城市设计的组合生成模型,它将建筑实例的生成与其他背景对象(例如道路、绿地和水域)分离成不同的模块。此外,我们构建了两个数据集 OSM 和 GoogleEarth,其中包含大量真实世界的城市图像,以增强生成的 3D 城市在布局和外观方面的真实感。通过大量的实验,CityDreamer 证明了其在生成各种逼真的 3D 城市方面优于最先进的方法。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档