前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自带魔法棒的 DALL·E | 一文图解热词

自带魔法棒的 DALL·E | 一文图解热词

作者头像
mixlab
发布2021-01-12 11:03:42
5990
发布2021-01-12 11:03:42
举报

CHUNFANG:大家最近在聊的热门词儿 DALL·E 是什么?具备什么功能?

大铮:DALL·E 能按照文字的描述,画出十分自然的图像。

目前的模型对于选词比较敏感,官方释出的例子是类似完形填空的形式,给句子中的名词位置挖了空,并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子:

第一个句子是:“一个长得像猪的闹钟”。

于是,DALL·E 生成了这样的图片:

第二个句子是:“一个长得像猪的手提包”:

接下来我们把 “猪” 换成 “桃子” :

最后我们看看 “桃子风格的,皮质扶手椅”:

在这里我们看到了一件有意思的事情:对于闹钟,手提包这些生活中本身就有各种形式的物体,DALL·E会生成形状各异的物体,且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅,DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物,DALL·E 可以做的还有更多,画油画,设计服装,布置房间,画emoji,等等。mixlab对此有更多介绍,或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

CHUNFANG:DALL·E 算是横空出世吗?

大铮:DALL·E不是一个架空的作品,Openai在去年发布了GPT-3(见跨模态专栏第一期)和Image GPT两个模型,各自分别能完成多种类的文本任务以及补全图像中的空缺部分。

DALL·E的模型在技术上来讲和GPT-3应该是大同小异的,同样采用了Transformer模型。因此这个作品更像是在秀肌肉(当然我得承认肌肉线条非常优美)。

DALL·E有120亿的参数,但和GPT-3的1750亿相比相形见绌,但这不是因为Openai没有这个财力去训练一个更大的模型,而可能是收集能够用来的训练的“图片-文本”对的成本很高(Openai为此收集了4亿个“图片-文本”对,文章的作者在Reddit的问答汇总也提到“这大概是最困难的部分”),远没有收集大量文本来的容易,而愈大的模型意味着愈大的训练样本数量。

CHUNFANG:DALL·E有什么惊人之处?

大铮:在介绍DALL·E时我就惊讶于ta能够很聪明地捕捉到每个事物的特性,并且合理地组织在了一起。

这个能力在之前一直被认为需要更多的人类常识的参与,光给模型看一大堆样本是做不到的。但事实上DALL·E做的很好,仿佛是真的理解了我们的真实世界。

CHUNFANG:但是有失败的案例吗?

大铮:当然哈哈哈。因为之前就说这是一项秀肌肉的工作,即使这些例子都是精挑细选出来的,但只要花点时间还是能够找出一些没做对的合成图像。

比如“印着蓝色草莓图样的拿铁咖啡”:

CHUNFANG:还有哪些关于DALL·E有趣的讨论?

大铮:外国网友真的是很好玩,我来贴两个:

→ 它生成来美丽的紫色路标。我建议我们将所有路标更改为紫色!

→ 我们用深度学习发现了魔术。即使知道它是如何工作的,它仍然像是魔术。“给我一把像牛油果一样的椅子。不,比这还要毛绒绒的……”

最后说说我个人的看法:

DALL·E给我们展现的效果无疑是非常震撼的,有了合理的创造能力的加持,未来能被设计师用作创作的素材库也是很有可能的。相比较于现有的搜索引擎,DALL·E更像是一个创造引擎,这在以前是没有过的。

设计:朱柏丞

编辑:chunfang

- END -

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档