以下内容为学习李宏毅老师的机器学习课程笔记。
一、生成式人工智能技术
1. 今日通常使用AI的方式已不再局限于一问一答,许多任务往往需要多步骤完成。
2. 生成式人工智能的核心原理:
a. 有限基本单位构成:所有复杂对象(如文章、图片和音频)均由有限基本单位构成,例如一篇文章由文字构成,一幅图片由像素构成,一段音频由离线采样点构成。这些有限的基本单位称为Token。
b. 序列化生成策略:通过函数y={y1,y2,y3,…yi…}表示生成过程。当前主流的生成策略是根据固定的顺序每次生成一个yi,这可以简单理解为「文字接龙」游戏(即 Autoregressive Generation)。神经网络负责计算每个输出的概率分布,这也解释了为什么同一个问题多次问大模型,但每次的答案并不完全一样。
c. 深度神经网络的必要性:本质是将复杂问题简化。为何让大模型「思考」会有效?「思考」本质上是另一种形式的「深度」。正如「深度不足,长度来凑」,这体现了**测试时间扩展(Testing Time Scaling)**的策略。
d. 架构与参数的二分性:架构由开发者设计(即超参数),可类比为「天生资质」;参数则通过训练数据学习获得,类比为「后天学习」。值得注意的是,参数规模属于架构的一部分,而参数的具体数值则是通过训练数据学习得到的。
3. 在生成式人工智能中,大模型的特征之一是「通才」,而非以往的「专才」。这些「通才」是如何演变而来的?以大语言模型为例,不同语言可共享同一模型,不同任务(如摘要、翻译等)亦可共用单一模型。这一演变大致可分为三个阶段。
a. 第一阶段(2018-2019年):通用模型基座(如BERT)+任务专用模型完成特定任务;
b. 第二阶段(2020-2022年):通用模型基座(如GPT-3)+参数微调适配不同任务(模型架构相同,但参数不同);
c. 第三阶段(2023年至今):单一通用模型+零样本指令遵循完成不同任务(模型架构与参数均相同)。
二、AI Agent
1. 工具增强型智能体:无需重新训练大模型,通过外部工具链(搜索引擎/代码解释器/专业模型)扩展能力边界。例如 LLM + Python 实现自动数据分析。
2. 能够根据经验调整行为,需依赖长、短记忆库。
3. 哪种外部知识更容易说服AI?大语言模型是否具备「判断力」?这仍是一个亟待探索的问题。
4. 大语言模型能否进行规划?已有一定的能力。