前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI引入了DALL·E:一种通过文本描述创建图像的神经网络

OpenAI引入了DALL·E:一种通过文本描述创建图像的神经网络

作者头像
代码医生工作室
发布2021-01-14 14:37:40
1K0
发布2021-01-14 14:37:40
举报
文章被收录于专栏:相约机器人

OpenAI最近训练了一个名为DALL·E的神经网络,该神经网络通过文本描述为自然语言可表达的各种概念创建图像。

可以教一个广泛的神经网络来使用GPT-3模型执行各种文本生成任务。使用图像GPT-3,可以使用同一神经网络生成高精度图像。DALL·E是GPT-3的120亿参数版本,受过训练,可以使用文本-图像对数据集根据文本描述创建图像。

与GPT-3相似,DALL·E是一个仅用于解码器的简单变压器。它将文本和图像都作为单个数据流,包含1280个令牌,文本256个和图像1024个。它使用最大的可能性来模制,以一个接一个地生成所有令牌。它在其64个自我关注层的每一层都有一个蒙版,允许所有图像令牌都参与所有文本令牌。根据层的不同,它对文本标记使用标准的因果掩码,对具有列,行或卷积注意模式的图像标记使用稀疏注意。

Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

该训练过程允许DALL·E从头开始生成图像并重建现有图像的矩形区域,该区域延伸到右下角。DALL·E可以为探索语言组成结构的许多句子创建合理的图像。

DALL·E具有独特的功能,例如:

  • 创建动物和物体,动物嵌合体和表情符号的拟人化版本。
  • 以合理的方式将不相关的概念组合起来以合成对象,其中某些对象不太可能在现实世界中存在。
  • 渲染文字
  • 将转换应用于现有图像

控制属性并绘制多个对象

DALL·E可以修改对象的属性及其出现的次数。同时控制对象,它们的特征及其空间关系具有挑战性。例如,短语“戴红色帽子,黄色手套,蓝色衬衫和绿色裤子的刺猬”。为了精确地解释表情,DALL·E必须准确地将每件服装与动物组成,并形成诸如(帽子,红色),(衬衫,蓝色),(手套,黄色)和(裤子,绿色)的关联。它们之间。

这项工作称为变量绑定,并且该团队已经测试了DALL·E执行此操作的能力,以实现相对定位,堆叠对象以及控制多个属性。但是,DALL·E的性能还取决于字幕的表达方式。在引入多个项目时,DALL·E会混淆对象及其颜色之间的关联,并且成功率会降低。

可视化透视图和三维

DALL·E还允许控制场景的视点和渲染场景的3D样式。研究人员通过测试DALL·E能够恢复旋转头的平滑动画,从而从一系列等距的角度重复绘制每个角度的知名人物的头部。

可视化内部和外部结构

DALL·E可以使用横截面图渲染内部结构,并使用宏观照片渲染外部网络。使用“极端特写视图”和“ x射线”样式的样本可以观察到这一点。

推断上下文细节

据说将文本翻译为图像的规格不足,因为单个标题可以对应许多可能的图像,因此图像不是唯一确定的。针对DALL·E,在以下三种情况下研究了这些规格不足:

  • 交替的方式,设置和时间
  • 在几种不同情况下渲染同一对象
  • 创建带有特定文字的对象图像。

与3D渲染引擎(必须明确定义输入)不同,DALL·E本质上可以在描述未明确说明图像应包含的特定特征时“填充空白”。

零拍推理

GPT-3具有零击推理功能,这意味着它仅需执行描述即可完成许多任务,而无需任何额外训练即可生成答案。例如,当出现短语“一个人在公园walking狗”时,它会使用GPT-3译成法语,从而产生“ un homme Quipromèneson Chien Dans le parc”。

同样,尽管没有对神经网络进行任何修改,但该团队发现DALL·E将这项技能扩展到了视觉领域,并且在正确提示时可以执行多个图像到图像的翻译任务。

此外,DALL·E还了解了地理事实,地标和街区。但是,它对这些概念的了解在某些方面是精确的,但在其他方面却是有缺陷的。

涉及生成模型的工作可能会产生重大而广泛的社会影响。该团队计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对特定工作流程和专业的经济影响,模型输出中存在偏见的可能性以及该技术所隐含的长期道德挑战。

资料来源:

https://openai.com/blog/dall-e/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档