首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

青记观察丨作为技术图像的AI绘图:本质与未来走向

导  读

与摄影、电视、电影等生成装置掌握在精英操作者手中的技术图像不同,AI绘图赋予每个人创作图像与相互连结、讨论图像的权利,未来社会将成为一个平等的、自由的对话式社会。

2023年3月,由AI绘图工具Midjourney最新V5版本创作的“中国情侣”“教皇穿奢侈品牌”等图像发布后引发网络热议。继ChatGPT之后,生成式AI在文生图领域再一次取得突破性进展。从人类利用双手作画,到使用摄影技术拍摄图像,再到输入文字和代码由AI生成图像,图像媒介技术的进化不仅意味着制图效率的提升与信息传递能力的加强,更加意味着“我们的经验、感知、价值观与行为模式,乃至这个世界的存在方式都正在发生变化”[1]。本文将AI绘图视为一种新的媒介技术,试图从弗卢塞尔技术图像理论的角度探讨AI绘图的本质、AI绘图的生成逻辑以及AI绘图将指引人类社会走向何方。

AI绘图的本质:

装置生成的技术图像

在本文中,AI绘图是指人类创作者在AI绘图平台输入文字或者代码,由AI生成一张基于文字描述的图像。具体来说,在Stable Diffusion和Midjourney这两款已经向公众开放使用的AI绘图工具中,使用者首先将作图需求用文本描述,比如:梵高风格的向日葵(这一描述性文本也被称为prompt);再将这一串prompt输入AI绘图工具的命令框中下达指令,最后等待AI绘图工具生成基于文字由工具自己“创作”的图像。AI绘图的原理正如巴西籍学者威廉·弗卢塞尔对技术图像的定义:由装置生成的图像[2],装置而非人类是技术图像生成的关键所在。

弗卢塞尔将人类从原始阶段至今生成的图像分为传统图像和技术图像,其区别首先表现在人与制作工具的关系差异上。传统图像,比如壁画、岩画这类史前图像虽然借助了不同类型的“画笔”,但本质上是人操纵工具绘制图像[3]。作为技术图像的AI绘图则依赖技术设备自身运作而产生,其创作者是经过编程的装置。装置即模拟思考的黑箱(black boxes),弗卢塞尔的黑箱隐喻一方面指装置是一种具有物质性的工具,另一方面也指它是一种生产技术图像的符号编码机制[4]。AI绘图工具Stable Diffusion直观呈现了装置运作的过程——在Stable Diffusion界面输入文字命令按下生成按键,操作者等待图像生成的界面会出现一个从0%到100%的进度条,随着指针不断接近100%,进度条下方的图像会从一团模糊的马赛克逐渐变为清晰图像。在此过程中,人与技术的交互关系不同于以往操纵与被操纵的主客二元关系,反而互构成了新的“装置—操作者”复合体[5]。人的操作者定位意味着不是“人”在使用装置,而是“人”在确定好的程序内展现有限的主动性[6],技术从被动充当工具转变为具有能动性的行动者。

作为一种技术图像,AI绘图的图像表征也与传统图像不同。传统图像直接表征现实世界,即绘图者用手绘制了一个图像来表现自己观察到的客体,它表达的是一个具体的场景。而技术图像则是“由象征着线性文本的象征所覆盖的那些平面”[7],简言之,技术图像并不直接表征现实而是表征现实化身的线性文本中的某个概念。2023年3月,AI绘图生成的“中国情侣”图片在互联网上走红,图片为一对年轻中国情侣穿着夹克和牛仔裤坐在楼顶,背景是20世纪90年代的北京,这张照片一度被人们认为是真实拍摄的老照片而非AI生成的图像。实际上,这张图并不是对一对生活在中国的真实情侣的描绘,而是AI绘图技术分解了社会认知文本中“中国情侣”的概念,生成了匹配“中国情侣”概念的人物形象、服饰、表情以及中国城市风格的背景组合而成的图像。所以,不论AI绘图生成的图像有多逼真,它仅仅是对人类观念的表征而不是对现实的表征。

AI绘图生成

逻辑的技术分析

图像复制技术的大规模应用与现代图像爆炸性增长使得图像成为一个新的问题。20世纪的图像学理论经过了多次转向。[8]面对生活中弥漫着图像的社会现实,从海德格尔的“世界图景论”到本雅明的“机械复制论”再到鲍德里亚的“拟像理论”,人文学者将批判的矛头指向技术对人的异化。[9]当模拟图像向数字图像演进,人类成像方式又一次实现飞跃,媒介技术成为图像制作的关键因素。与人文学者的路径不同,弗卢塞尔对于技术在图像中运作有着极为细致的洞察,为我们理解AI绘图提供了技术层面的分析依据,本文将从AI绘图生成的流程逐一拆解其生成逻辑。

(一)编撰prompt:操作者的微抵抗姿势

AI绘图虽然是一种算法自动化制图技术,但操作者仍然可以采取抵抗姿势。姿势是身体或与身体相连之工具的某种运动[10],弗卢塞尔认为操作者姿势对于理解技术图像与装置功能的本质至关重要。比如在电影中进行符号化的核心姿势是通过剪刀和胶水对制作出来的电影胶片进行编辑。这种姿势其实是将线性文本记录的历史转化为可操纵的图像从而制造历史[11]。

AI绘图的起始动作为用户将图像需求表述为prompt,撰写prompt便是AI绘图技术中操作者采取的姿势。根据AI绘图工具用户的反馈,生成的图像是否符合用户预期与prompt的质量关联很大。有用户将prompt的撰写规则归纳为“媒介+画面风格+画面主体+画面环境+光照+色彩+视角+渲染方式+出图质量+官方指令”[12]。很多用户痴迷于对prompt的设计与改进,不断去尝试新的prompt生成图像,这其实是用户对于预设程序的一种反抗,修正AI自动化生成图像中产生的非预期图像的偏差。但操作装置如同下象棋,棋手只能在象棋既定的程序中寻找新的可能性与新的步法,操作者对装置的抵抗是有限的。因而,操作者即便用积极的姿势去抵抗自动化程序,这对装置而言也仅是一种微小的抵抗力量。

(二)编程计算:装置的黑箱式运作

AI绘图根据内置的编程通过计算生成图像,图像生成过程是黑箱在自动化运作[13]。AI绘图的用户即便能看见从一团迷雾逐渐变为清晰图像的过程,但并不知晓与理解其所基于的扩散模型的运作过程。正如弗卢塞尔所说:“这就是技术图像——在盲目中化为现实的可能性,在漆黑中现身的无形之物。”[14]以AI绘图工具Midjourney为例,其技术原理是基于扩散模型生成图像。扩散模型将图像视为一个热力学系统,其中每个像素都被赋予了温度值。初始温度分布由随机噪声产生,每个像素都与相邻像素进行相互作用,并且在扩散过程中传播热量。扩散模型使用热传导方程计算每个像素的温度,从而模拟热量扩散的过程。这一过程是从有噪声的低清像素图开始,其间,一个个噪点逐渐清晰化,直到完全没有噪声形成高清图像。

AI绘图工具的用户只能通过编撰prompt提出绘图的要求,但AI绘图技术把分散的粒子凝结为图像的过程是不可控制与更改的,图像生成于代码与程序运算的不可见“黑箱”中。在AI绘图中,用户不像使用画笔那样使用Midjourney这类装置,而是输入一个制作图像的命令等待图像生成结果,用户只是装置的“功能实现者”。

(三)图像生成:概率的游戏

AI绘图生成的图像有巨大的不确定性,每一次作图请求都是一次新的随机过程,即便输入同样的关键词生成的图像也不相同,每次制图都像在“开盲盒”。2023年3月初,日本出版了第一部AI作画的漫画作品《Cyberpunk: Peach John》(赛博朋克:桃太郎John)。网名为Rootport的人类作者构思了漫画的故事框架和人物对话,再使用Midjourney生成漫画画面。这部作品存在一个巨大的问题——漫画角色经常“变脸”。在最初创建主角时,Rootport输入“cyberpunk/momotaro/midnight Japan”(赛博朋克、桃太郎、午夜日本)的prompt生成了意料之外的女性形象。通过反复修改关键词,Rootport最终确定粉发穿棒球外套的亚洲男孩为漫画主角。但在之后的画面中,由于AI绘图的不稳定性,主角桃太郎忽而圆脸忽而尖脸,人物外观经常变化。

在AI绘图工具的界面,用户发送prompt提出生成图像的请求后,最初的图像是高度模糊的噪点团,在随后的几十秒中,线条从模糊到清晰,色彩逐渐分离,最终形成具体、清晰的图像。噪点团在AI绘图工具中被称为种子(Seed),每一个作图请求的种子编号都是随机生成的,也就是每个作图请求的初始噪点团都不相同,而其后像素热量扩散的结果也必不相同。

史前图像与AI技术图像生成的原理截然不同。史前图像绘制是一个编码的过程,为了让图像能被其他人解码,每个图像都建立在社群群体熟知的编码之上。此后,虽然不断出现新的象征符号,但已有的象征符号并不会改变。AI绘图并非对客观世界的直接表征,而是通过文本间接的表征,这决定了它的创作会随着对文本的考量与计算有所不同。通过对AI绘图使用的Diffusion模型的解析可以发现AI并不像人类那样去理解文本,而是调动其所储存的海量数据,每次随机给出一个对文本的回应。作图从主观的思考转变为算法基于概率对数据进行组合。因此,AI生成图像具有不稳定性,它实际上是一个算法控制的概率游戏[15]。

技术图像的封闭隐忧与

AI绘图的应对之道

对于传统的摄影、电视与电影,弗卢塞尔警示技术图像正在形成“人—图”的闭环式的传播关系,以“撒播”的方式使得社会极权化。人类只作为图像的接受者而缺少与其他人的互动,图像的信息传播呈现出一种自上而下的单向度形式。这实质上批判了装置使得当前世界变得图像化、自动化与程序化,人“因为装置内在的不透明性而被装置支配”[16],其后果是人类可能走向中央编程的控制型社会。

弗卢塞尔认为解决困境的关键并不在于批判装置,因为自动化的技术装置已经成为现代社会必不可少的一种信息处理方式,操作者本身也只是一种受装置规则辖制的服务者。其中一条解决路径要从技术出发,建立一个让人与人、人与技术平等交流的“对话”平台,从而改造图像装置发射的“连接线路”[17]。AI绘图通过自身的交互性开启了对话式的图像传播模式,将“人—图”的闭环式传播转变为“人—图—人”的“连接线路”。AI绘图的代表性应用Midjourney并没有开发独立应用程序而是依托于聊天社区Discord运作,用户在公开聊天室发起的作图需求与生成的图像对所有用户可见,其他用户可以在聊天频道中对图像展开各种讨论。除了本身所依托的聊天社区,AI绘图在各大社交平台也引发了讨论。2023年3月,一系列美国前总统特朗普被警察围捕的AI生成图像以其逼真性、戏剧性在Twitter上走红。在国内社交媒体平台B站与小红书上,分享AI绘图生成图像的视频和笔记留言区有大量用户讨论图像质量与博主使用的prompt。还有一些用户将使用博主同款prompt生成的图片在评论区分享。每一个生成的图像都能引发交流,图像成为人与人之间的连接中介。

另一条解决路径在于操作者“游戏性”地参与技术图像的制图过程。弗卢塞尔曾预言,“未来,人们会在键盘上游戏,狂热地创造难以磨灭的信息,而这些信息也将不断被用于新信息的合成”[18]。游戏是对话式传播的关键所在,它将实现对社会的对话式重构。游戏的本性是每一个游戏者在一定的规则下平等地参与游戏,最大限度发挥自身的能力与自由[19],游戏精神是对自动化装置的回应与对抗。AI绘图便是一场对数字符号进行自由化操控组合的游戏。在以“中国情侣”为主题的AI生成图像火爆之后,教皇穿奢侈品羽绒服、中国足球在世界杯夺冠、异形成为打工人、爱因斯坦玩摇滚、马斯克在20世纪80年代的中国玩滑板等天马行空的AI图像接连出现。这些富于创意的图像都是由非专业制图者生成并分享至社交媒体平台,又引发更多人展开想象生成新图像。在这场对话式游戏中,人人都处于平等共生、相互熟识的环境之中,每一位参与者既是创造者也是评价者,新信息不断涌现[20]。业余的制图者不再只是被动地凝视技术图像,他们可以自由地操作AI绘图技术使信息得以再生产,其结果是一方面人们在游戏中发现自我、充实自我,另一方面人与人之间形成了一种互相交织的“网状对话结构”。

结语:从控制型社会到

对话式的远程通信社会

弗卢塞尔将传播方式分为对话传播与话语传播,对话传播是一种合成新信息的信息生产方式,话语传播是一种储存信息而进行分配的信息分配方式,两种传播方式缺一不可[21]。但在摄影、电视、电影的时代,只有极少数专业的精英操作者掌握了技术图像的装置,分配信息的话语传播占据了主导地位,从而导致了技术图像因缺少信息的再生产而变为单向度的社会控制技术。

AI绘图的本质是经过编程的装置自动化生产技术,AI图像的生成并非对现实的直接反映,而是一种具有不稳定性、由算法控制的概率游戏。虽然AI绘图仍然是一种装置生成的图像技术,但与摄影、电视、电影等生成装置掌握在精英操作者手中不同,AI绘图依托于“可对话”的远程通信平台,赋予每个人创作图像与相互连结、讨论图像的权利,闭环的“人—图”传播模式转变为“人—图—人”的对话式传播模式,新信息在其间不断涌现。由此,中央编程的控制型社会将转变为弗卢塞尔所期待的平等的、自由的远程通信社会。

参考文献

[1][14][15][18][20]威廉·弗卢塞尔.技术图像的宇宙[M].李一君,译.上海:复旦大学出版社,2021:1,10,21,73,74.

[2][13][16]威廉·弗卢塞尔.摄影哲学的思考[M].毛卫东,丁君君,译.北京:中国民族摄影艺术出版社,2017:15,26,22-23.

[3]袁艳.织纹:技术图像的另一个宇宙[J].国际新闻界,2022(12).

[4]朱恬骅.重审技术分析:计算机图像的意义生成与艺术潜能[J].艺术学研究,2021(03).

[5][7][11][21]威廉·弗卢塞尔.传播学:历史、理论与哲学[M].周海宁,译.上海:复旦大学出版社,2022:120,111,153-157,7.

[6]张巧.作为装置的摄影——以威廉·弗卢塞尔的摄影哲学为中心的考察[J].北京电影学院学报,2020(10).

[8米歇尔.图像何求:形象的生命与爱[M].陈永国,高焓,译.北京:北京大学出版社,2018:7.

[9]唐宏峰.图像学3.0:20世纪图像理论的三个阶段[J].美术,2020(09).

[10]Flusser, Vilém. Gestures[M].Trans.Nancy Ann Roth.Minneapolis:University of Minnesota Press,2014:7.

[12]附超多关键词!AI 绘画神器 Midjourney 进阶使用技巧总结[EB/OL].(2023-03-31).https://www.bilibili.com/read/cv22761234/.

[17]“惟新惟读”读书会第七期|赵千帆老师领读《技术图像的宇宙》 [EB/OL].(2023-04-14).https://mp.weixin.qq.com/s/S_8ywrOHRtzEXDdvYHsn4A.

[19]姜宇辉.“姿势”的意义:技术图像时代的“无根基之恶”[J].文化艺术研究,2022(12).

(作者为复旦大学新闻学院博士研究生)

【文章刊于《青年记者》2023年第22期】

本文引用格式参考:

陈露菡.作为技术图像的AI绘图:本质与未来走向[J].青年记者,2023(22):89-91.

编辑:小青

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQZ8guO5eo1c53xcdJJH4xSQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券