文 | HW君
本文目录:
1. ChatGPT的启示
2. 了解ChatGPT
3. 对技术祛魅
1. ChatGPT的启示
ChatGPT等大语言模型所展示出来的能力是惊人的,但它的基本功能在某种程度上却相当简单。
首先从互联网、书籍等获取人类创造的海量文本样本,然后训练一个神经网络。
然后这个神经网络用来从提示文本开始,继续生成与其训练数据相似的文本。
这就像是模拟一个人在看到数十亿个网页上的内容之后,猜测当前这段文本的一下个合理的词是什么。
例如ChatGPT在写一篇文章时,它实际上只是一遍又一遍地询问:
根据当前的文本,下一个词应该是什么?
然后每次在文本后面添加一个概率较高的词。
就是这么简单的规则,就展现出了与人类相似的语言能力。
在过去,普遍认为「语言」是一项非常高级且神秘的能力,只有人类大脑能够使用驾驭。
人类语言及其所涉及的思维过程,一直被视为复杂性的巅峰。
但现在我们知道,ChatGPT的人工神经网络也可以做得非常出色。
其带给我们最大的启示是,并非是大语言模型有多神奇。
而是人类语言及其背后的思维模式在结构上比我们想象的更加简单。
2. 了解ChatGPT
市面上讨论ChatGPT的文章已经多不胜数了,因此我们不会过多地展开其技术细节。
但对于想了解ChatGPT基础原理的朋友,这里可以给出一些建议。
想要了解人工智能,最好的方法就是亲自动手写一个神经网络。
推荐一本《Python神经网络编程》,对初学者非常友好:
跟着上手写一个识别手写数字的神经网络,可以很快地了解人工智能的基础原理。
而对于想要更直观地了解ChatGPT的朋友,也可以看3BlueBrown的GPT系列视频:
【官方双语】GPT是什么?直观解释Transformer | 【深度学习第5章】
https://www.bilibili.com/video/BV13z421U7cs/
【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】
https://www.bilibili.com/video/BV1TZ421j7Ke/
【官方双语】直观解释大语言模型如何储存事实 | 【深度学习第7章】
https://www.bilibili.com/video/BV1aTxMehEjK/
3BlueBrown的可视化做得很好,哪怕你不理解原理,也可以对ChatGPT的工作过程建立一个直观的认知。
然后也推荐一本物理学家Stephen Wolfram写的《这就是ChatGPT》:
Wolfram之前做过元胞自动机,他的思维方式很对我胃口。
这本书有很多理论思辨,也讨论了ChatGPT能做什么和不能做什么,而非单纯只是技术细节。
老爷子其实是一个符号派,在讨论过程中夹带了一些私货。(智能 | #2 人工智能的三种流派)
以上这些看完之后,市面上大部分关于大语言模型的讨论,估计可以理解个七七八八了。
3. 对技术祛魅
事实上看我们文章的朋友,应该不是为了看我推荐这些的。
但对于技术祛魅的最好方式,就是去了解技术。
现如今市面上对于ChatGPT的讨论汗牛充栋。
抛开工程细节讨论的部分,整体看下来可以分为两类。
一类是无脑夸大人工智能的能力,仿佛AI是万能的,世界变革就在下一秒。
另一类则是不知所谓的社科评论,在不了解技术的情况下进行过度的人文批判。
回到开头,ChatGPT等大语言模型所展示出来的能力是惊人的,但它的基本功能在某种程度上却相当简单。
我们认为ChatGPT带给我们最大的启示是,人类语言及其背后的思维模式在结构上比我们想象的更加简单。
要弄清楚ChatGPT的原理,其实需要回到人类自身的语言及思维模式上。
也许我们并不了解自己。
我们需要重新思考,人类语言以及背后的思维模式,究竟是如何工作的。
而这一步仍然需要信息论的支持。
因此我们并不会在ChatGPT上停留太久。
更重要的是重新回到信息论的角度,去思考人类语言和思维是如何工作的。
(本章节完,敬请期待下一节)
By HW君 @ 2025-01-18
领取专属 10元无门槛券
私享最新 技术干货