前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你的工作会被AI替代吗?

你的工作会被AI替代吗?

作者头像
木羊
发布2023-09-09 09:22:33
1190
发布2023-09-09 09:22:33
举报
文章被收录于专栏:睡前机器学习睡前机器学习

ChatGPT大杀特杀以后,最常问的问题之一就是能不能替代搜索引擎。最初我的回答是“不能”,现在我的回答同样是“不能”。

回答相同,但问题不同。最开始我认为大模型最大的问题在于极度消耗资源,新必应似乎也在说明,就算微软这种家里真的有矿的地主,算力也架不起大模型消耗。不过,对于这个问题,最近开源社区有了不少乐观的进展。

但是,还有第二个问题,而且非常严重。进入ChatGPT时代以后,大家都很焦虑,连医生、律师等等一大票光鲜亮丽的高端职业,忽然发现居然也面临着被AI替代的职业焦虑。不过,因为存在第二个原因,至少现在这些职业已经从死刑转成了死缓。

这个问题有时候会有一条长长的描述,譬如说模型生成内容失实甚至有毒。现在学界一般称之为模型幻觉( Hallucination)问题。

这几个月,有些媒体一直在忙着制造大模型焦虑,但如果你真的去用你就会发现,大模型真的要像他们说的取代这个取代那个,首先要解决的就是幻觉问题。

什么是幻觉问题?简单来说就是模型”一本正经地胡说八道“。

我不太确定术语最初的源头,不过,很多研究幻觉问题的文献都会提到一篇论文《Survey of Hallucination in Natural Language Generation》。这篇论文给出了幻觉问题的定义,方式很有意思。

现在大家谈到幻觉问题,大概都知道是指什么,但要下个准确定义不太容易。作者可能也觉得颇为棘手,所以首先引了一段心理学上的幻觉定义,说没有外界刺激却体验到的感觉叫幻觉。接着,作者说NLG也有一种类似现象:模型生成的文本可能出现不真实或无意义的问题。作者认为二者如此相像,所以干脆把模型的这个问题也称作“幻觉”。

二者相像的点到底在哪呢?这里我简单理解一下,那就是真实情况和感觉上存在差异。模型有没有自我意识这是个哲学问题,姑且不去深究,假设模型生成的内容是”跟着感觉走“,那么模型生成的内容失实,自然说明模型的”感觉“与真实情况存在差异。

这就是幻觉问题。作者后面还用了一长段文字描写幻觉问题的具体表现,用我们更熟悉的话概括,那就是“一本正经地胡说八道”。

注意,刚才我一直说的是“模型的幻觉问题”,而不是“大模型的幻觉问题”幻觉问题是生成式模型的通病,不是大模型特有,但大模型病得尤为厉害。

很多大语言模型甚至专辟一章介绍幻觉问题,OpenAI在发布GPT-4的时候就专门写了一段,说GPT-4的幻觉问题仍然存在,但较前有所缓解。这段话是写在Limitations里面的,我认为这说明OpenAI很重视这个问题,也做了一些尝试,有效果但不太理想,仍然属于模型局限性的重点部分。

那么,幻觉问题好不好解决呢?不好解决,原因有二。

第一个原因,研究幻觉问题的论文已经积累了不少,解决方法从模型结构到数据再到训练方法都有人提。效果怎样呢?前GPT-4已经剧透了,有效果,但也就只是有效。

根源在于第二个原因。上面替到这篇论文很长,讨论了很多话题。前面我们提到了”真实“,论文就以此进一步区分了内在幻觉和外在幻觉。

如果模型输入包含了一些事实,而模型的生成内容明显不符合,这就是内在幻觉。

各种意义上说,内在幻觉都比较简单,容易理解,也容易识别。外在幻觉则复杂一点。论文的说法是”生成内容无法通过输入内容证明或证伪“,都称为外在幻觉。

说起来拗口,举个例子就知道了。譬如我问”马里奥兄弟大电影的导演是谁?“,模型回答”宫本茂",这个内容就没法通过输入证明或证伪。

这就麻烦了,模型幻觉问题的影响远比我们想的范围要广。

现在到处都说生成式人工智能、生成式人工智能,看重的是什么?是模型的生成能力吗?不是!看重的是模型的创造力,从无到有的创造能力。

过去NLP的生成式任务,主要是翻译、摘要,最疯狂的也不过是风格变化。这些传统任务说穿了就是形式上的变化,最终生成结果不会增加新内容。不存在新信息,所以真实性完全可以通过输入内容来判断。

但是,OpenAI从GPT-3就开始注意挖掘模型在创作方面的能力,譬如说给小说编写一些剧情。这些任务就不再只是简简单单的形式转换,而必然需要增加新的信息内容。这就是模型的创造力。创造力放在上面这个分析框架下,就会有另一个名称,就叫模型幻觉

第一次想到这里的时候,我觉得不可思议,肯定是我读错了什么地方。但是,论文作者显然已经预料到了我的困惑,还专门写了一段话:

外在幻觉未必就是错的,可能来自正确的外部信息源,但因为额外增加了信息难以验证,所以容易导致安全问题。

看明白了吗?为什么大模型的幻觉问题不好解决?因为它的病灶和它的价值长在了一起

最后,回到最开始的问题,为什么我认为现阶段大模型还无法替代搜索引擎?因为大模型存在幻觉问题

我需要在搜索引擎上搜某个问题的时候,通常说明我并不了解这个问题的答案,这时如果是用大模型返回一个结果,那么对于我来说,无论这个结果是真实还是虚构,我都无从验证。所以对我来说,这都是模型幻觉。

模型幻觉未必都是错的,但是,我们有多大的勇气,敢把自己的问题交给幻觉?如果对象不是搜索引擎,是医生呢?是律师呢?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档