前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述

李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述

作者头像
量子位
发布2018-07-24 15:29:27
8360
发布2018-07-24 15:29:27
举报
文章被收录于专栏:量子位量子位
Root 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI

一个设计师拿到简(mo)单(hu)需求的日常。

帮我做个海报吧。 我要个浪漫的场景,两个人在海边走,有日落,海浪,远山那种。

“上辈子伤天害理,这辈子来做设计”
Source:人类关怀计划

If有一款神器,可以根据文本生成图像,快速做出一般客户需求的海报,设计师们也许就可以把更多的时间用在创意上了。

文本转图像算法

其实已经有了。李飞飞斯坦福团队今年发表在CVPR论文Image Generation from Scene Graphs就和这个应用相关。

在计算机视觉领域,已经有了不少团队造出能直接把文本转成图像的算法。此前表现最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。

我们先来看看它的表现:

第一题:

This bird is white with some black on its head and wings, and has a long orange beak. “画一只白鸟,头部和翅膀带点黑shaǐ,还有个很细长的橘黄色喙。”

效果惊人

再来看看第二题:

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep. “画两只羊站草原上,要有云,远方还有海,海上还得有只船。对了羊后边还要加棵树。”

效果感人

对于语义简单的句子,StackGAN还能hold住,可是句子中有多个物体且位置关系复杂的话,这个生成的图像完全不能用了。

为了解决这个问题,李飞飞携团队,Justin Johnson和Agrim Gupta想出了一个办法:先把文本处理一下,把句子中的物体及他们的相对位置用一个物体关系图(Scene Graph)表示出来,然后再交给模型处理。

像这样。

然后生成出来的图果然好多了,更贴近真实世界(虽然还有点模糊)。

加一步,多面临三重挑战

为了生成更符合物理世界规律的图像,生成过程中所用到素材必须取自真实世界的图像。

因此,第一个挑战就是要构建一个能处理真实图像的输入处理器。

除此之外,生成的每一个物体都必须看起来真实,而且能正确反映出多个物体的空间透视关系。

最后一个,就是整个图中所有物体整合到一起,得是看起来是自然和谐不别扭的。

训练过程简介

先是选Visual Genome和COCO两个数据集里的图片作为素材源。只挑那些含有3~8个物体的图片。

然后把这些图片人工地给出物体关系图。像这样:

然后用模型预测物体之间的位置,大概给出一个图片元素的布局。

最后根据多个判别模型保证输出的图像是符合真实感知的。

整个训练过程如下图:

但图像效果够不够真,自己不好说了算。

因此李飞飞团队在Amazon Mechanical Turk平台上找了人帮忙做评估。和StackGAN相比,合成效果好了一倍。

最后,附论文地址:https://arxiv.org/abs/1804.01622

你可能感兴趣

AI学会视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文本转图像算法
  • 加一步,多面临三重挑战
  • 训练过程简介
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档