前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何正确争吵AIGC的抄袭问题

如何正确争吵AIGC的抄袭问题

作者头像
木羊
发布2023-09-09 09:21:08
2160
发布2023-09-09 09:21:08
举报
文章被收录于专栏:睡前机器学习

AIGC热议以后,另一个热议的话题就是AI抄袭。

这也算是个老话题了。最开始在AI生成代码,大家都在关心码农转行是该开滴滴还是送外卖的时候,就有人说自己放在Github上的代码被AI抄袭了,圈内讨论过一阵为了训练模型,不管人家代码是什么开源协议都统统喂进去,是不是属于侵权问题。

后来AI绘画火了,画画圈我不太了解,开始还以为是个小众圈子,结果发现和人家比码农才叫小众圈子,这时又有人出来说被AI抄袭,事情很快就出圈了,现在很多画师和平台都在抵制AI绘画,甚至有的说拿来训练都不允许。

我研究AI,同时也算内容生产者,这就很纠结了。一方面我认同AI可能成为新一代的生产力工具,注意,不仅仅是工具,而且是生产力工具,这是一个很重的词。

另一方面,我也深深地明白大家对于白嫖的憎恶,现在都很爱讨论什么工作容易被AI替代,如果技不如人,不对,是技不如AI,被替代也就替代了,但如果AI是拿着白嫖我的作品来替代我,我想任谁都接受不了。

这里面涉及太多的话题,除了AI技术本身,更多的还有社会、法律和伦理。这里只聊三个问题。

1.搬运问题

就我自己对生成技术的理解,目前的生成模型不创造内容,而只是内容的搬运工

首先说,关于AI生成原理目前界内猜想很多,但远没有到形成定论的阶段。目前主流AIGC使用的模型都是深度学习模型,是深层神经网络,这种模型架构有一个特点,效果很好,但很难解释,也就是大家都说不好为什么效果这么好,术语叫可解释性差。深层神经网络内部运作很不透明,所以也常被称为“黑盒”。深度模型越做越大,可解释性也越来越差。

没有定论,那我们想办法进行一些观察。现在大语言模型说的很多,语言模型是怎样训练的呢?自监督学习。什么叫自监督学习,给一段话,假设有十个字,盖住最后一个字,要求模型根据前九个字预测最后一个字是什么。现在名气很大的GPT模型就是这么训练的。当然也有其它变体,譬如说盖住的是中间的某个字,这就要求模型具有双向阅读能力。

这里我们不讨论技术细节,反正都是黑盒,我们凭直觉想一想,这种训练方式模型能够学到什么?我觉得是四个字,条件反射。模型要力求输出和答案一样,最好就是用肌肉记忆记住原句子,像极了过去我们背唐诗,反复念反复念,直到看到上半句就能摇头晃脑背出下半句来。反复念能不能加深对意境的体会不好说,反正条件反射是培养出来了。

背后有没有理论支持呢?有理论支持,贝叶斯条件分布,以前面一长串作为条件输入,找到概率最大的下一个字作为输出。这就是生成模型的基本原理。

那有什么问题呢?搞不清到底是真的生成,抑或只是“记串了”。

我们背诗也好,唱歌也好,应该都有过经历,会出现把两条用词差不多或者调调差不多的句子,前后拼成一句的情况,一读还挺顺口。这就是记串了。句子当然是全新的,但每个片段又都有原始出处,模型只是找到合适的片段抽取出来,再以某种形式重新拼在一起。这就是前面我说生成模型不创造内容,而只是内容的搬运工。

2.Token问题

搬运算不算抄袭呢?我想很多人都会说当然算,AI绘画的批评者专门发明了一个词批评这种行为,叫“拼尸块”。

为什么叫拼尸块?因为图像生成的原理类似,所谓的AI作画其实可能只是从现有不同的画作里面抽取片段拼在一起。这个说法有研究支持。Google、DeepMind等几家研究机构发表的论文《Extracting Training Data from Diffusion Models》已经证实,AI模型确实记住了一些训练用的原图,在部分情况下,甚至可以把整张原图重新生成出来。

可是,问题想深一层,就会变得更复杂。就文本内容来说,抄袭也好,创作也罢,肯定是由一个一个字组成的,术语称为“token”。模型是不会原创token,所使用的token必然来自数据集里的某篇文章。即使假设模型真的具有创造力,但最终能做的也不过只是在token层面进行各种组合排列,到底该算抄袭还是创作呢?

实际问题还要更复杂。token与一般意义上的字还略有差别,更接近英文中的word,对应到了中文语境应该叫“词”或者短语。如果模型生成了一首七言诗,假设每句的七个字分成三个token,分别来自于三首诗,现在模型把它们重新拼成了一句,譬如“半江花开红似火”,到底该算创作还是抄袭呢?

我感觉边界就更模糊了。

而且别忘了,咱们古人就有一种玩法叫“集句”,集句可不是一句话前抄一段后抄一段这么小家子气了,整句话都拿过来,这首诗抽一句那首诗抽一句,拼成一首“新”诗。集句这种玩法现在还有,那算不算抄袭呢?要不要把老祖宗挖出来打官司?

这就有了最后一个问题。

3.主观问题

从当前AI的技术水平来看,用“抄袭”这个词来描述AI本身恐怕就不合适。

为什么?因为AI没这本事。抄袭是个主观性非常强的行为,主观性非常重要,法律判罚就非常看重主观性。但AI还没发展出“主观性”这种本事。

我们人是怎么抄袭的呢?首先得去想,也就是脑子里先得有“抄袭”的念头,而且通常还知道抄袭属于越界行为,经过反复权衡之后,最终才决定去抄袭。抄袭的心理过程非常复杂,在我非常有限的见识里面,还没听谁说过我不是自愿,是那天喝多了,所以才抄袭的。

那么,AI有没有抄袭这种主观性呢?

我们经常问现在AI有没有意识,这个问题更进了一步,问AI有没有越界意识。没有。如果现在谁有办法让AI有意识地去抄袭,那绝对拿奖拿到手软。

不过,有人会说,AI没有意识,但是人是有意识的,人在训练AI上会不会有问题呢?

AI模型的训练方法大差不差,基本都是填鸭式灌数据,科幻作品里面的自我觉醒式训练方法还只是幻想阶段,合适不合适,现阶段也没别的办法可想。

但数据集的选取却大有文章。人在训练AI模型的时候,选什么数据加入数据集是主观的,如果故意拿了未经授权的图,或者故意无视使用协议广泛采集数据,这当然又都属于主观行为。

未经授权使用别人的图,别人的文章,行为本身就叫侵权。用来训练模型不行,用来发朋友圈同样不行。因为数据集里可能包含有侵权图片,所以不让使用AI绘画。情感因素我能理解,但我想问题的关键不在于让不让用AI模型,而在于另一个问题:

黑盒问题。

前面说过黑盒问题,学界所关心的黑盒问题是不知道模型都学到了什么,但对于其它内容生产者来说,更关心的是模型学了什么,也就是有没有使用未经授权的数据训练模型。

难吗?不难,也难。模型学了什么从学术上看并不是黑盒,我们当然知道自己给模型喂了什么,论文对于数据集的使用也是简单一列了事,谁没不会把这事当作问题。但是,AIGC一旦开始商业化,开始承载大量资本,问题就复杂。复杂在于怎样告诉别人我们给模型喂了什么,而且还能让别人相信我们说的是真的。

这个才是AIGC时代需要重点捋清的问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档