AI 常用名词与大模型基础科普

沈宥

发布于 2026-01-08 10:49:24

1.8K0

文章被收录于专栏：从头开始学习测试开发从头开始学习测试开发

面向技术/非技术同学的一篇入门级技术分享，帮助快速理解 LLM、Agent、Token、Ask、Plan 等概念，以及当前主流大模型的差异与适用场景。

一、常用 AI 名词说明

1.什么是 LLM（Large Language Model，大语言模型）

LLM 是一种基于深度学习（主要是 Transformer 架构）的模型，核心能力是：

理解自然语言（读懂你说的话）
生成自然语言（像人一样回答、写作、写代码）
进行一定程度的推理、总结、规划

典型代表：

GPT 系列（OpenAI）
Claude（Anthropic）
Gemini（Google）
通义千问（阿里）
文心一言（百度）

可以把 LLM 理解为：

一个“超级强的语言补全引擎” —— 它并不是“知道答案”，而是根据上下文预测“下一个最合理的 token”。

2. Token 的定义

Token 是大模型计算和计费的最小单位，可以理解为：

一个英文单词（或词的一部分）
一个中文汉字，通常≈1 token
标点符号、空格也可能算 token

示例：

你好，世界

大致 token 数：

你 | 好 | ， | 世 | 界 → 5 tokens

英文：

Artificial Intelligence

可能被拆成：

Artifi | cial | Intelligence → 2~3 tokens

结论：中文更“费 token”，英文更省。

3. Prompt（提示词）

Prompt 并不是一句自然语言问题，而是一次模型调用中全部输入信息的总和。

在工程实践中，Prompt 往往由以下部分共同构成：

角色定义（你现在扮演什么身份）
任务目标（要完成什么事情）
行为约束（格式、风格、边界条件）
上下文信息（历史对话、业务背景）

从成本角度看：

Prompt 是输入 token 的主要来源
Prompt 越长，单次 ask 的固定成本越高
Prompt 不稳定，会直接导致 ask 次数上升

因此在工程中：

Prompt 是一种需要被设计、被版本化、被复用的工程资产，而不是临时拼接的字符串。

4. Context（上下文）

Context 指的是：

当前一次模型调用中，模型能够“看到”的全部内容

它包含：

当前 Prompt
历史问答
工具调用返回结果

需要特别强调的是：

Context 是一次调用内有效的
Context 会随着多轮对话不断膨胀

在工程实践中：

Context 过长，会导致 token 成本失控
Context 过杂，会显著降低模型输出稳定性

5. Context Window（上下文窗口）

Context Window 是模型在一次调用中可处理 token 的最大上限。

常见规格包括：

8k / 16k / 32k
超长上下文模型可达 128k

需要注意：

输入 + 输出 token 共同占用窗口
窗口越大，延迟和成本通常越高

工程结论是：

上下文窗口不是越大越好，而是“够用即可”。

6. Plan（规划）

Plan 指模型在执行任务前，对完成路径进行的步骤拆解。

典型表现为：

先列步骤
再逐步执行

Plan 的工程意义在于：

提升复杂任务成功率
降低中途返工概率

但同时也意味着：

更长的推理过程
更多的中间 token 消耗

因此：

Plan 是用 token 换确定性，而不是“免费能力”。

7. Agent（智能体）

Agent 并不是一种新的模型，而是一种系统形态：

Agent = LLM + Plan + 工具调用 + 状态管理

与普通聊天模型的核心区别在于：

Agent 可以自行决定“下一步做什么”
Agent 往往涉及多次模型调用

这也直接导致：

Agent 的 token 消耗呈倍数增长
成本预测难度显著提高

工程上常见结论是：

Agent 适合高价值、低频、复杂任务，而不适合高 QPS 场景。

8. Rules / System Prompt / MDC

Rules 用于定义模型的长期行为边界，例如：

输出格式
技术栈限制
安全规则

在工程中，Rules 往往通过：

System Prompt
rules.mdc（Markdown 定义文件）

进行固化。

rules.mdc 的核心价值在于：

避免在每次 Ask 中重复描述约束
显著降低输入 token
提升模型行为一致性

可以理解为：

MDC 是“模型的长期工作说明书”。

9. Temperature / Top-p / Top-k

这类参数用于控制模型输出的随机性。

工程经验是：

代码、测试、配置生成：低随机性
文案、创意场景：允许更高随机性

在生产系统中，通常会：

对不同任务类型使用不同参数组合
避免使用“默认参数跑所有场景”

10. Hallucination（幻觉）

幻觉指模型在信息不足或不确定时，仍然生成看似合理但实际错误的内容。

工程视角下：

幻觉不可避免
只能被约束和降低

常见手段包括：

明确禁止编造
引入外部数据校验
使用 RAG 架构

11. RAG（检索增强生成）

RAG 是企业级 AI 系统中最常见的架构模式之一。

它的核心思想是：

模型不“记忆事实”
模型基于实时检索结果生成回答

RAG 的本质权衡是：

用更长的 Prompt
换更高的事实准确性

12. Embedding（向量化）

Embedding 是将文本转换为向量，用于语义相似度计算。

在工程中，它通常：

成本低于 LLM 调用
可被长期复用

是构建知识库和搜索系统的基础能力。

13. Function Calling / Tool Calling

这是 Agent 系统中的关键能力：

模型负责决策
程序负责执行

它让 LLM 从“语言模型”升级为“系统调度器”。

14. Multi-turn（多轮交互）

多轮交互是 Agent 和复杂任务的常态，但也意味着：

上下文膨胀
token 成本放大

工程上通常通过：

阶段性总结
状态外置存储

来控制成本。

15. Chain of Thought（思维链）

思维链是模型内部推理能力的外显形式。

工程取舍是：

复杂问题值得使用
简单问题没必要付出额外 token 成本

16. Streaming（流式输出）

流式输出通过边生成边返回结果，改善用户体验。

但在工程上：

实现复杂度更高
更适合长文本场景

二、Token的消耗与什么有关？

1. Token 如何计算消耗

一次模型调用的 token 消耗 =

输入 tokens + 输出 tokens

举例：

你输入 500 tokens
AI 输出 1000 tokens
本次调用消耗 1500 tokens

在企业 API 计费中，通常：

输入 token 单价 < 输出 token 单价

2. Ask、Request、Call 是什么关系？

在工程系统中，这三者往往被混用，但本质含义非常接近：

Ask：一次向 AI 提问的业务行为
Request：一次完整的 API 请求
Call：一次模型执行与计费

在成本核算中：

一次 Ask，几乎必然对应一次 Call，也必然产生 token 消耗。

如果一个用户操作背后触发多次 Call，那么真实成本往往被严重低估。

在不同平台/团队中叫法略有差异，但本质一致：

名称	含义
Ask	一次“向 AI 提问/请求”的行为
Request	一次完整的 API 请求
Call	一次模型调用（计费单位）

核心点

一次 Ask ≈ 一次模型 Call ≈ 一次 token 结算

如果你的系统：

一个用户操作 → 触发 5 次 AI 调用
那么就是 5 次 ask / 5 次消耗

3. Plan 是什么？为什么 Agent 离不开它

Plan（规划） 指的是：

在执行任务前，模型先“想清楚步骤”，再按步骤完成

例如：

目标：生成一份技术方案
Plan：
1. 拆解需求
2. 设计整体架构
3. 列出关键模块
4. 输出文档

Plan 本身会 消耗额外 token
但可以显著提升：
- 复杂任务成功率
- 多步骤任务一致性

4. 什么是 Agent（智能体）

Agent = LLM + 规划能力 + 工具调用 + 状态记忆

它不只是“聊天”，而是：

能拆任务
能自己决定下一步
能调用外部工具（API、数据库、代码执行）

一个典型 Agent 的流程

用户目标
   ↓
Plan（任务规划）
   ↓
Action（调用工具 / LLM）
   ↓
Observation（观察结果）
   ↓
Loop（直到完成目标）

为什么 Agent 特别“烧 token”

多轮思考
多次 LLM 调用
中间结果也要进上下文

Agent 的本质是：用 token 换自动化能力

三、Rules / MDC 是用来干什么的

1. Rules（规则）

Rules 是对模型的“长期行为约束”，例如：

回复风格
安全边界
输出格式
禁止事项

常见形式：

System Prompt
Policy Prompt

2. MDC（Model Definition / Model Context）

在工程中，MDC 通常指：模型的长期上下文定义文件，常见是 <span>rules.mdc</span> 或 markdown 文件：

用途：

固化 AI 的“人格”和“工作方式”
避免每次 ask 都重复长 prompt
提高一致性，降低 token 浪费

示例作用：

统一返回 JSON
强制使用某种技术栈
规定异常处理方式

对工程化落地来说，MDC 是成本控制和稳定性的关键手段。

四、当前主流大模型对比（2025 视角）

模型	优点	缺点	适合场景
GPT-4.x / GPT-5	推理、代码、通用能力最强	成本高	复杂分析、代码、Agent
Claude 3.x	长上下文、文本理解强	中文稍弱	文档分析、总结
Gemini	多模态强	工程稳定性一般	图文理解
通义千问	中文友好、性价比高	推理略弱	中文业务系统
文心一言	国内生态、合规	技术深度有限	国内应用

五、在实际工作中如何“有效运用人工智能并合理控制成本”

实战建议如下：

若非必要，不使用智能代理（优先采用单次调用方式）
通过规则/多维度约束固化共性要求
拆解提示信息，降低上下文干扰
明确区分聊天模型与代码模型
对令牌/请求指标进行监控

十、

工程视角统一总结

在工程视角下，对于相关的AI系统有诸多关键要素需要进行统一总结。这些要素如同构建系统大厦的基石，每一个都有着不可替代的作用。

LLM（大语言模型）在整个系统中扮演着执行引擎的重要角色。它就像是一台精密的发动机，负责对各种输入信息进行处理和运算，推动整个系统的运转。LLM凭借其强大的语言理解和生成能力，将输入的指令转化为具体的输出结果，是系统实现各项功能的核心驱动力。
Token作为唯一成本单位，在系统的运行过程中有着至关重要的意义。Token可以看作是系统运行所消耗的“能量货币”，每一次的信息处理和交互都需要消耗一定数量的Token。无论是输入的文本长度，还是输出的回复内容，都与Token的消耗直接相关。因此，合理管理和控制Token的使用，对于降低系统成本、提高资源利用效率起着关键作用。
Ask作为消耗触发器，是引发系统资源消耗的起始点。当用户发起一个Ask（询问）时，就如同按下了系统运行的开关，系统会立即启动LLM开始处理该询问，从而消耗相应的Token。所以，对Ask的管理和优化，能够有效控制系统的成本消耗，避免不必要的资源浪费。
Plan在整个系统的运行中决定着成功率。一个合理、完善的Plan就像是一份精确的作战地图，为系统的运行提供明确的方向和步骤。它可以帮助系统更好地应对各种复杂的情况，提高处理问题的效率和准确性，从而大大增加系统成功完成任务的概率。
Agent在系统中具有放大能力的作用，但同时也会放大成本。Agent就像是系统的“代理人”，它可以代表系统执行各种任务，通过与外部环境的交互来实现系统的目标。然而，Agent的运行也需要消耗大量的资源，包括Token等。因此，在使用Agent时，需要权衡其带来的能力提升和成本增加之间的关系，确保系统的整体效益最大化。
Rules / MDC（规则/模型驱动控制）对于系统的稳定性起着决定性的作用。Rules就像是系统运行的“交通规则”，规定了系统在各种情况下的行为准则；MDC则像是系统的“方向盘”，通过对模型的驱动和控制，确保系统朝着正确的方向运行。合理的Rules / MDC可以有效避免系统出现混乱和错误，保证系统的稳定运行。