生成式人工智能概览与 AI Agent | 笔记

文章来源：企鹅号 - 斯可

以下内容为学习李宏毅老师的机器学习课程笔记。

一、生成式人工智能技术

1. 今日通常使用AI的方式已不再局限于一问一答，许多任务往往需要多步骤完成。

2. 生成式人工智能的核心原理：

a. 有限基本单位构成：所有复杂对象（如文章、图片和音频）均由有限基本单位构成，例如一篇文章由文字构成，一幅图片由像素构成，一段音频由离线采样点构成。这些有限的基本单位称为Token。

b. 序列化生成策略：通过函数y={y1,y2,y3,…yi…}表示生成过程。当前主流的生成策略是根据固定的顺序每次生成一个yi，这可以简单理解为「文字接龙」游戏（即 Autoregressive Generation）。神经网络负责计算每个输出的概率分布，这也解释了为什么同一个问题多次问大模型，但每次的答案并不完全一样。

c. 深度神经网络的必要性：本质是将复杂问题简化。为何让大模型「思考」会有效？「思考」本质上是另一种形式的「深度」。正如「深度不足，长度来凑」，这体现了**测试时间扩展（Testing Time Scaling）**的策略。

d. 架构与参数的二分性：架构由开发者设计（即超参数），可类比为「天生资质」；参数则通过训练数据学习获得，类比为「后天学习」。值得注意的是，参数规模属于架构的一部分，而参数的具体数值则是通过训练数据学习得到的。

3. 在生成式人工智能中，大模型的特征之一是「通才」，而非以往的「专才」。这些「通才」是如何演变而来的？以大语言模型为例，不同语言可共享同一模型，不同任务（如摘要、翻译等）亦可共用单一模型。这一演变大致可分为三个阶段。

a. 第一阶段（2018-2019年）：通用模型基座（如BERT）+任务专用模型完成特定任务；

b. 第二阶段（2020-2022年）：通用模型基座（如GPT-3）+参数微调适配不同任务（模型架构相同，但参数不同）；

c. 第三阶段（2023年至今）：单一通用模型+零样本指令遵循完成不同任务（模型架构与参数均相同）。

二、AI Agent

1. 工具增强型智能体：无需重新训练大模型，通过外部工具链（搜索引擎/代码解释器/专业模型）扩展能力边界。例如 LLM + Python 实现自动数据分析。

2. 能够根据经验调整行为，需依赖长、短记忆库。

3. 哪种外部知识更容易说服AI？大语言模型是否具备「判断力」？这仍是一个亟待探索的问题。

4. 大语言模型能否进行规划？已有一定的能力。

发表于: 2025-04-132025-04-13 21:33:25
原文链接：https://page.om.qq.com/page/ODC7L649bPcy0CCsWp27ReIA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

生成式人工智能概览与 AI Agent | 笔记

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐