什么是AIGC

木羊

发布于 2023-09-09 09:23:52

9730

AIGC是现在很火的一个概念，每天都有新闻，很多人都在谈论，但昨天听机工社郭老师直播我才突然意识到，“什么是AIGC”本身反而介绍很少，有一点名可名非常名的味道。我专门找了一下，甚至很多聊AIGC的自媒体也只是一知半解，可能觉得AIGC和AI是一回事，也可能觉得和ChatGPT是一回事。

对吗？不对，但也不全错。

道理很简单，如果AI和AIGC是一回事，为什么要起两个名字，换个马甲好圈钱吗？当然不是。百度在2017年就喊出ALL IN AI的口号，今年3月才推出文心一言，网上吐槽很多，其中就有说百度这些年都是拿着AI的概念圈钱。这里不多谈，只说一点，虽然都是AI，但此AI非彼AI。

客观地说，不管百度怎样，在AI方面确实搞了一些东西的。譬如搞了一个飞桨框架，还搞了无人驾驶。李彦宏去年7月在百度世界大会上还说无人驾驶是“人类有史以来创造价值最大的颠覆式创新”。不过呢李总今年5月又有新说法，这次是“大模型改变世界”。不管怎样吧，无人驾驶是AI，大模型当然也是AI，但两者显然不是一回事。

为什么又说不全错呢？虽然不是所有AI都叫AIGC，但毕竟关系密切，简单来说AIGC就是用AI来完成GC任务。这是一类技术，其中的一款产品叫ChatGPT。

不过，问题没有解决，GC是什么？怎么和AI搞在了一起？现在还有一个搞在一起的概念也很火叫大模型，这都是些什么呢？

这还得从AI说起。

AI这个词都懂，是英文人工智能（Artificial Intelligence）的首字母缩写，但是，“人工智能”到底是指什么，我们真的懂了吗？如果要你给出一个定义，你真的能给出来吗？

我们对“人工智能”的印象，实际很多是源于科幻作品，内容可能大不相同，但对于AI的刻画却有一个共同点，那就是“类人”。幻想作品都有这个特点，不管叫机器人也好，叫外星人也好，叫半兽人也好，无论外表有多科幻、魔幻、奇幻，脑袋里面一概长着一颗人类的脑子。

所以，很多人以为人工智能就是用人工方法实现一颗人类的脑子。

这又是一个不全是误会的误会，妨碍我们真正理解真实的人工智能。人工智能的起点确实是用人工方法实现智能，而且人工智能确实有那么一个研究方向，是从仿生学的角度实现一颗人类的脑子，叫类脑智能。但是，这只是人工智能诸多研究方向中的其中一条，而且和我们要谈的AIGC基本没啥关系。

人工智能研究的问题非常广，手边正好有人工智能教材，随便摘几个：自然语言处理、博弈论、自动规划、知识表示、机器人学，这还是看着沾点边的问题，要再往基础理论的部分去，那都是谓词逻辑、A*搜索、退火算法等等让计算机专业都觉得半懂不懂的名词。

原因不复杂。人工智能有繁多的子学科，而且这些子学科不是一脉相承，而是满天星斗。

从学科角度看，人工智能就是一个大箩筐，只要和“智能”沾边都可以往里面装。其中有一门子学科叫机器学习，机器学习是一个小一点的箩筐，里面又能分出神经网络、决策树、支持向量机等等分支。我们现在熟知的深度学习、大语言模型，就是从人工智能下面的机器学习下面的神经网络分支出来的。

总而言之，人工智能绝不像很多人以为的，是大家齐心协力搞一个模仿人类的人工大脑，先模仿三岁的大脑，然后是四岁、五岁、十岁这样上来。人工智能不是一条道走到黑，甚至不是同一个问题用不同方法来解决，而是划分了好多不同的问题领域，每个问题领域里面又有不同流派搞出不同方法忙得不亦乐乎。

为什么会这样？我认为是有两道大难题。

第一道难题就是怎样定义“智能”。

智能是什么？感觉谁都知道，但谁也说不清楚。怎么办呢？依照各自理解给出不同定义，再由定义衍生出问题，最后再八仙过海解决问题。问题本身就五花八门了，解决问题的思路和方法那更是千奇八怪，结果人工智能可不就成了一个大箩筐。

第二道也是最难的问题，就是没有一种方法能包打天下。

我们把实现智能根据不同理解拆解成不同问题，一种方法在这个问题上表现不错，但在另一个问题上表现不佳，甚至压根没法表现。

再简单一点，现在无论哪种人工智偏科特别严重，用来下棋的AI再厉害也没法用来开车。很多媒体都爱说现在AI又相当于多少多少岁的人类，这种说法有一定误导性，现在人工智能的发展压根不是人类一岁一岁长上去的模式，很可能这边已经专精了，那边还像个弱智。

就拿ChatGPT来说，ChatGPT基于大语言模型（LLM），也就是我们俗称的“大模型”，属于自然语言处理领域，说人话来就是用AI来处理文本任务。所以别看ChatGPT文字聊天风生水起，看图说话照样还是个人工智障。

但就这已经是进步了，过去自然语言处理同样画地为牢，又细分出一堆的子任务，比如文本分类、词性标注、实体抽取等等。每种任务又各自搞出一堆的不同模型，A任务下的模型是没法干B任务的事的。从这个侧面就能一窥人工智能的研究现状。

为什么现在学术界疯狂点赞大模型？就是因为大模型打破了自然语言处理画地为牢的现状，一款模型就能够用很多任务上使用，学术界管这种模型叫大一统模型。开始大家不太清楚大一统模型应该怎么实现，现在发现模型参数上去了，也就是把模型做大了，模型能力也会跟着上去。这可能是实现大一统模型的可行路径。

那处理图片的领域有没有类似的大模型呢？人工智能把处理图片的任务统称为计算机视觉(Computer Vision)，现在应用也挺多的，无人收费停车场用来识别车牌号的技术就是其中之一。不过，CV领域参数大的模型有不少，但大一统模型还暂时没有。

所以，现在我们说“大模型”，其实指的都是大语言模型，用来处理文本任务。不过，哪怕是在自然语言处理，大语言模型也仍然没有真正做到大一统，只能说大家看到了希望。

一句话总结，现实的人工智能是任务导向，是把“智能”拆解成不同的任务，再尝试不同的方法解决。明白了这个，也就明白人工智能，AI焦虑应该也能有所缓解。

任务导向的人工智能与我们的想象确实也很有一段距离，不过，这是一种务实的做法。有时候发现某项任务难度太大，单用一款AI模型没法完成，那就会这项任务把进一步拆解成多个子任务。自然语言处理碎成一地的现状就是这么来的。

不过，大语言模型毕竟让大家看到了大一统希望，所以现在提了一个新的概念叫AGI，有的翻译为强人工智能，有的翻译为通用人工智能，简单来说就是颠覆过去那种模型不行就拆任务的范式，尽可能只用一款模型搭配其它花里胡哨的办法来解决问题。

最后说说AIGC。AIGC全称是Artificial Intelligence Generated Content，直译为人工智能生成内容。听着很科幻其实不复杂。现在网上有很多内容生产者，譬如说我写了这篇文章，我是内容生产者，你在文章下留言评论，你也是内容生产者。内容生产者的身份略有不同，行话叫PGC和UGC，但都有一个特点：都是人类。把人类换成人工智能生产内容，这就是AIGC。

内容生产也是任务，人工智能称为生成任务。现在常见的AIGC有三种，一种是AI绘画，这是图片生成任务。一种是AI歌手，这是音频生成任务。一种是AI聊天，这是文本生成任务。正如我们前面说的，这些生成任务背后又各自对应一堆不同的AI模型。

有人可能觉得不对，说你看文心一言，这不就是只用一款模型既能聊天又能绘画还能发音频吗？

前面说的是AI技术，文心一言是AI产品。要实现这种产品有两种技术思路。一种是缝合怪，还是一种任务一款模型，但统一出口分别调用。用户来聊天了，我调用A模型，用户来画画了，我调用B模型。文心一言就是这个思路。网上很多人用松鼠桂鱼来证明文心一言不行，公平地说，只是证明了负责图像生成的模型不行。

这种水是水油是油的解决方案实现简单，但肯定不够优雅。更优雅的方式是多模态生成，简单来说就是用一种模型完成多种文本、图片等跨多种模态的生成任务。譬如说GPT-4的看图说话，我输入一张梗图，你告诉我笑点在哪里。AI绘画其实也是一种多模态生成，我输入文字描述，你生成对应的图片。多模态生成听着更顺耳，但难度也大得多。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-06-29，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能