OpenAI最近训练了一个名为DALL·E的神经网络,该神经网络通过文本描述为自然语言可表达的各种概念创建图像。
可以教一个广泛的神经网络来使用GPT-3模型执行各种文本生成任务。使用图像GPT-3,可以使用同一神经网络生成高精度图像。DALL·E是GPT-3的120亿参数版本,受过训练,可以使用文本-图像对数据集根据文本描述创建图像。
与GPT-3相似,DALL·E是一个仅用于解码器的简单变压器。它将文本和图像都作为单个数据流,包含1280个令牌,文本256个和图像1024个。它使用最大的可能性来模制,以一个接一个地生成所有令牌。它在其64个自我关注层的每一层都有一个蒙版,允许所有图像令牌都参与所有文本令牌。根据层的不同,它对文本标记使用标准的因果掩码,对具有列,行或卷积注意模式的图像标记使用稀疏注意。
Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容
该训练过程允许DALL·E从头开始生成图像并重建现有图像的矩形区域,该区域延伸到右下角。DALL·E可以为探索语言组成结构的许多句子创建合理的图像。
DALL·E具有独特的功能,例如:
控制属性并绘制多个对象
DALL·E可以修改对象的属性及其出现的次数。同时控制对象,它们的特征及其空间关系具有挑战性。例如,短语“戴红色帽子,黄色手套,蓝色衬衫和绿色裤子的刺猬”。为了精确地解释表情,DALL·E必须准确地将每件服装与动物组成,并形成诸如(帽子,红色),(衬衫,蓝色),(手套,黄色)和(裤子,绿色)的关联。它们之间。
这项工作称为变量绑定,并且该团队已经测试了DALL·E执行此操作的能力,以实现相对定位,堆叠对象以及控制多个属性。但是,DALL·E的性能还取决于字幕的表达方式。在引入多个项目时,DALL·E会混淆对象及其颜色之间的关联,并且成功率会降低。
可视化透视图和三维
DALL·E还允许控制场景的视点和渲染场景的3D样式。研究人员通过测试DALL·E能够恢复旋转头的平滑动画,从而从一系列等距的角度重复绘制每个角度的知名人物的头部。
可视化内部和外部结构
DALL·E可以使用横截面图渲染内部结构,并使用宏观照片渲染外部网络。使用“极端特写视图”和“ x射线”样式的样本可以观察到这一点。
推断上下文细节
据说将文本翻译为图像的规格不足,因为单个标题可以对应许多可能的图像,因此图像不是唯一确定的。针对DALL·E,在以下三种情况下研究了这些规格不足:
与3D渲染引擎(必须明确定义输入)不同,DALL·E本质上可以在描述未明确说明图像应包含的特定特征时“填充空白”。
零拍推理
GPT-3具有零击推理功能,这意味着它仅需执行描述即可完成许多任务,而无需任何额外训练即可生成答案。例如,当出现短语“一个人在公园walking狗”时,它会使用GPT-3译成法语,从而产生“ un homme Quipromèneson Chien Dans le parc”。
同样,尽管没有对神经网络进行任何修改,但该团队发现DALL·E将这项技能扩展到了视觉领域,并且在正确提示时可以执行多个图像到图像的翻译任务。
此外,DALL·E还了解了地理事实,地标和街区。但是,它对这些概念的了解在某些方面是精确的,但在其他方面却是有缺陷的。
涉及生成模型的工作可能会产生重大而广泛的社会影响。该团队计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对特定工作流程和专业的经济影响,模型输出中存在偏见的可能性以及该技术所隐含的长期道德挑战。
资料来源:
https://openai.com/blog/dall-e/