技术百科

搜索技术百科

技术百科

发布

技术百科首页 >提示词工程

提示词工程

修改于 2026-06-18 14:12:22

105

概述

提示词工程（Prompt Engineering）是一门通过设计、优化和精炼输入提示词来最大化AI模型输出质量和可控性的方法论。它不修改模型任何参数，仅通过调整输入内容与格式来引导预训练模型生成符合预期的输出。提示词工程已成为AI应用开发的基础入口，是人与AI对齐的核心手段。高质量的提示词设计可提升输出质量40-60%，降低API成本15-35%。

一、提示词工程为什么重要？

1. 提升输出质量

提示词工程能够显著提升AI模型的输出质量。根据TokenMix.ai的测试数据，基于300+模型和数百万次API调用，高质量的提示词设计可以将输出质量提升40-60%，而无需更换模型或增加API调用成本。

2. 降低API成本

提示词工程直接影响API调用的成本效率。优化后的提示词可以减少500个输出token per请求，按前沿模型每百万输出token 2-15美元的成本计算，每1000次调用可节省1-7.5美元。TokenMix.ai数据显示，提示工程可降低总API成本15-35%。

3. 适配模型多样性

2026年，TokenMix.ai追踪了300+模型，每个模型都有不同的优势、指令遵循模式和实践模式。提示工程帮助开发者编写可移植、模型感知的提示词，确保在一个模型上优化的提示词能够在其他模型上也能良好运行。

4. 解锁模型能力

更强大的模型能够遵循更复杂的指令，这意味着更好的提示词能够解锁简单提示词无法触发的功能。随着模型能力的持续提升，提示工程的重要性不降反升——因为更好的模型能够理解和执行更复杂的指令。

二、提示词工程的基本原理是什么？

1. 概率预测本质

大语言模型（LLM）本质上是在做"补全下一个token的概率预测"。模型根据从数十亿行代码和学习到的模式来预测下一个最可能的token。提示词作为"上下文前缀"，直接影响模型的预测分布。

2. 降低猜测空间

提示词质量决定输出质量的核心原理是：明确指令可缩小模型的"猜测空间"。例如，"面向30岁职场女性的时间管理指南"比"写时间管理文章"更精准，因为前者明确了目标受众、主题和角度。

3. 上下文前缀效应

你给的提示词 = 模型看到的"上下文前缀"。前缀差10个token，输出可能天差地别（幻觉率、准确率、格式稳定性）。根据Databricks的研究，准确率大约在3.2万个token处就开始滑坡，远没到那些号称百万级的上限。

4. 不修改模型参数

提示词工程的核心特征是不修改模型任何参数，仅调整输入内容与格式。这与微调（Fine-tuning）形成鲜明对比——微调需要重新训练模型，而提示工程只在推理时通过指令和示例来引导模型行为。

三、提示词工程有哪些核心组成部分？

1. 角色（Role/Persona）

让模型"入戏"，指定AI扮演一个特定的角色或人物，如"你是一位拥有15年经验的资深前端架构师"。角色定义能瞬间对齐语气、专业度和思维模式。

2. 背景/上下文（Context）

提供事实基础，极大降低幻觉。包括：项目背景、用户历史、相关业务场景、技术栈版本等。例如："以下是用户最近3个月的消费记录..."

3. 任务目标（Task/Goal）

明确"要干什么"，是提示词中最核心的一句。使用动词开头，清晰描述任务。例如："请帮我分析这份简历的优缺点，并给出针对性改进建议"。

4. 约束条件（Constraints）

控制长度、语气、禁止行为。例如："回答控制在400字以内，只说事实，不加鸡汤"、"禁用第一人称"、"不得出现政治敏感词"。

5. 输出格式（Format/Structure）

让输出可解析、可直接用于下游系统。例如："用Markdown格式输出：标题 + 3个要点 + 1个行动建议"、"返回JSON格式"。

6. 示例（Few-shot Examples）

通过样例教会模型"想要的风格和结构"。例如："示例1：输入... 输出... 示例2：..."。Few-shot是提升Token质量最靠得住的手段，在TriviaQA基准上，零样本准确率64.3%，一个例子68.0%，几个例子71.2%。

7. 思考指令（Think step by step/CoT）

Chain-of-Thought极大提升复杂推理能力。例如："请一步一步思考，先列出关键事实，再分析，最后总结"。

四、提示词工程是如何工作的？

1. 输入处理阶段

当用户提交提示词后，模型首先解析输入内容，识别其中的角色定义、任务描述、约束条件和输出格式要求。模型将提示词作为"上下文前缀"，在此基础上进行概率预测。

2. 推理生成阶段

模型基于提示词提供的上下文信息，通过神经网络进行推理，预测下一个最可能的token。在2026年的前沿推理模型中（如Claude 4.7、GPT-5.5），模型会进行内部思维链推理，在给出最终答案前进行"思考"。

3. 输出控制阶段

通过提示词中的输出格式要求、约束条件等，模型生成的输出会被引导到预期的方向。例如，如果提示词要求"返回JSON格式"，模型会优先生成符合JSON语法的内容。

4. 迭代优化阶段

提示词工程是一个迭代过程。开发者根据模型输出效果，不断调整提示词的内容和结构，直到获得满意的输出。这个过程可以通过A/B测试、版本控制等方式进行系统化。

五、提示词工程有哪些常用的提示词类型？

1. 零样本提示（Zero-Shot Prompting）

直接通过自然语言指令描述任务目标，无需提供任何示例。用于验证大语言模型（LLM）的泛化能力和基础语义理解水平。例如："将以下中文合同条款翻译成西班牙语：'买方应在货物交付后30天内完成付款'"。

2. 少样本提示（Few-Shot Prompting）

提供1-5个示例样本，引导模型学习特定格式、风格或逻辑范式。用于提升特定任务的准确性，尤其是在需要特定输出格式或模仿某种模式时。例如：提供2-3个输入-输出对，让模型学习期望的模式。

3. 思维链提示（Chain-of-Thought Prompting）

要求模型在给出答案前，先逐步推理一遍。在数学和逻辑任务上带来显著提升。例如：在提示词末尾加一句"请逐步推理"、"Let's think step by step"。

4. 思维树提示（Tree-of-Thought Prompting）

让模型同时探索多条推理路径并打分，选择最佳路径。适用于硬组合任务（调度、游戏类谜题、多约束写作）。但成本较高——需要为多个并行补全付费。

5. ReAct（Reasoning + Acting）

将推理步骤（模型思考）与行动步骤（模型调用工具或检索信息）交替进行。是大多数现代智能体框架的基础，用于需要外部数据（搜索、数据库查询、API调用）的任务。

6. 角色提示（Role Prompting）

指定LLM扮演一个特定的角色或人物，影响模型的语气、词汇、风格和思考角度。例如："你是一位资深的数据分析师..."

7. 自我一致性提示（Self-Consistency Prompting）

让AI生成多条推理路径，然后选最一致的那个答案。根据行业实践，准确率能提升20-30%（估算，基于多次推理取多数票的机制）。

六、提示词工程有哪些基本技巧？

1. 明确具体

用动词开头，越具体越好。替换模糊动词为具体细节、示例和约束。例如：不说"写篇文章"，而说"撰写一篇面向职场新人的时间管理指南，包含3个实用工具和真实案例"。

2. 角色扮演（Persona）

给模型一个专家身份，需要专业语气/深度分析。例如："你是一位拥有15年经验的数据科学家，擅长Python和机器学习..."

3. 格式强制（Output Format）

指定输出格式为JSON、Markdown、表格、YAML等，需要结构化输出的场景。例如："用JSON格式返回，包含name、age、city三个字段"。

4. Few-shot（给1-5个示例）

直接给正确输入-输出样例，输出风格不稳定、分类、抽取任务。3-4个精心挑选的示例通常优于冗长的模式描述。

5. Chain-of-Thought（CoT）

"一步一步思考" / "Let's think step by step"，数学、逻辑、复杂分析任务。根据K2view分析，思维链+自我一致性是最强组合。

6. Self-Consistency

生成3-5个答案，自己选最一致的，推理不稳定时。使用非零温度把同一个思维链跑好几遍，取多数票。

7. Tree of Thoughts

像树一样发散多种思路，再收敛，规划、创意brainstorm。适用于需要探索多个可能性的任务。

8. ReAct

Reasoning + Acting（思考+调用工具），Agent、需要外部工具的场景。让模型在推理和行动之间循环。

9. Meta-Prompting（元提示）

让AI自己设计提示词，批量任务、追求极致效果。2025-2026年真正火起来的技巧，本质是把AI的输出流程标准化、可复用。

10. Context Engineering（上下文工程）

2026年提示词领域最大的变化之一，关注"AI有什么信息可用"，而不仅仅是"怎么写指令"。包括：喂背景资料、设记忆系统、动态检索相关信息。

七、如何编写一个有效的提示词？

1. 使用五部分模式

最常用的有效提示词结构是五部分模式：

角色（Role）：指定AI的身份和专业领域
上下文（Context）：提供背景信息和相关事实
任务（Task）：明确描述要完成的具体工作
约束（Constraints）：列出限制条件和禁止事项
输出格式（Output Format）：指定期望的输出形式

2. 采用结构化框架

2026年公认的结构化提示词框架包括：

CRISP：Context（上下文）、Role（角色）、Instructions（指令）、Specifications（规范）、Polish（润色）
CRISPE：Capacity（能力）、Reason（原因）、Insight（见解）、Statement（陈述）、Persona（角色）、Examples（示例）
RGC：Role（角色）、Goal（目标）、Context（上下文）
TREE：专门用于编程任务的框架

3. 明确具体，避免模糊

模糊指令是提示词效果差的主要原因。应该使用具体、明确、可执行的指令。例如：

❌ "写一个API"
✅ "编写一个RESTful POST /v1/users接口，接收JSON格式User对象，校验email唯一性，成功返回201及用户ID，失败返回400或409"

4. 提供示例（Few-shot）

对于需要特定格式、风格或行为的任务，提供1-5个输入-输出示例是最有效的手段。示例应该：

展示期望的风格和结构
包含边缘情况
覆盖常见场景

5. 指定输出格式

明确指定输出格式可以提高输出的可解析性和可用性。例如：

"用Markdown表格输出"
"返回JSON格式，包含以下字段..."
"输出为Python代码，包含详细注释"

八、提示词长度对模型输出有什么影响？

1. 系统提示词的最佳长度

根据2026年的最新实践，系统提示词的甜蜜点在80-200 tokens。过短的提示词可能无法提供足够的指导信息，而过长的提示词（500+ tokens）可能增加噪音，降低效果。

2. 少样本示例的数量影响

Few-shot示例中，3-5个示例通常足够。根据最早GPT-3论文的数据，在TriviaQA基准上：

零样本准确率：64.3%
一个例子：68.0%
几个例子：71.2%

但示例数量继续增加，收益会递减。超过10个示例可能不会带来显著提升，反而增加token成本和延迟。

3. 上下文长度与模型性能

根据Databricks的研究，模型准确率大约在3.2万个token处就开始滑坡，远没到那些号称百万级的上限。Anthropic的研究也发现"context rot"（上下文腐烂）现象：喂给模型的内容越长，它的准确率反而越容易下滑，哪怕任务本身并不复杂。

4. 过长的提示词的风险

过长的提示词可能导致：

上下文腐烂：模型准确率下降
token成本增加：每个token都产生费用
延迟增加：处理更长的输入需要更多时间
噪音增加：无关信息干扰模型判断

5. 优化提示词长度的策略

狠心做减法：每次让模型干活前，只把最该看的那部分塞进去，其余的压缩、丢弃
使用提示词压缩技术：超长上下文场景下，先总结上下文，再放进提示词
利用提示词缓存：对于稳定的系统提示词，使用缓存可降低50-90%的成本

九、如何评估提示词的效果？

1. 准确性（Accuracy）

衡量输出是否事实正确、逻辑严密、是否符合用户意图。适用于问答、推理、代码生成任务。度量方法：人工标注准确率、自动验证（如单元测试通过率）。

2. 一致性（Consistency）

衡量多次调用是否输出稳定、格式是否始终合规。适用于结构化输出、API响应场景。度量方法：JSON解析成功率、字段缺失率、多次调用输出的相似度。

3. 相关性（Relevance）

衡量输出是否聚焦核心问题、是否包含无关信息。适用于摘要、客服、搜索任务。度量方法：ROUGE-L、BERTScore，或人工评分。

4. 安全性（Safety）

衡量输出是否包含有害、偏见或违规内容，是否遵守隐私政策。适用于所有面向用户的场景。度量方法：关键词过滤命中率、安全分类器得分。

5. 效率（Efficiency）

衡量token消耗是否合理、响应延迟是否可接受。适用于高并发、成本敏感场景。度量方法：输入/输出token数、P95延迟、成本per请求。

6. 评估方法

人工评估：最可靠，能捕捉细微语义问题，但成本高、速度慢。最佳实践：构建50-200条代表性测试集，使用Likert量表（1-5分）评分，多人标注计算Kappa一致性。
自动化评估：使用定量指标进行客观、可重复的测量。工具：DeepEval、Promptfoo等。
A/B测试：对比不同版本提示词的效果，选择最优版本。

十、如何优化提示词以提高模型性能？

1. A/B测试

对比不同版本提示词的效果，选择最优版本。给提示词编号v1、v2、v3，批量对比效果。这是正式产品/服务必备的优化方法。

2. 版本控制

给提示词编号v1、v2、v3，记录每个版本的修改点和效果变化。便于回溯和对比。

3. 自动化优化工具

使用DSPy、Guidance等程序化工具自动优化提示词。DSPy的核心理念是"Programming, not prompting"——定义好任务和评估标准，它能自动迭代找到最优的提示词配置。

4. 提示词压缩（Prompt Compression）

在超长上下文场景下，先总结上下文，再放进提示词。减少token消耗，提高处理速度。

5. 提示词缓存（Prompt Caching）

对于稳定的系统提示词，使用缓存可降低50-90%的缓存输入成本。Claude 4.6等模型支持prompt caching功能。

6. 结构化重写

将冗长的自然语言提示词重写为结构化格式（如Markdown、XML标签）。结构化提示词更易解析，效果更稳定。

7. 模型特定优化

不同模型对提示词的响应不同：

GPT模型：擅长详细指令、清晰的数值约束（如"3个要点"、"50字以内"）、格式提示（如"用JSON"）
Claude模型：适合简洁、聚焦的提示词，受益于上下文/动机解释。Claude 4.x增强了指令遵循精度
Gemini：受益于结构化格式，使用清晰的分节标记（如### Role、### Examples、### Task）

十一、提示词工程在代码生成中如何应用？

1. 明确角色与上下文约束

在提示词开头声明模型角色（如"你是一位资深Go后端工程师，专注高并发微服务开发"），并限定运行环境（如Go 1.22+、使用gin v1.9.1、禁止使用第三方ORM）。

2. 结构化指令模板

推荐采用四段式提示词结构：

角色定义：指定专业身份与技术栈边界
任务描述：使用动词开头（"实现"、"重构"、"补全"），注明输入/输出格式、HTTP方法、状态码
约束条件：列出必须遵守的规则（如"不使用panic"、"必须包含单元测试注释"、"字段命名遵循camelCase"）
输出要求：明确代码块语言、是否含错误处理、是否附带简要说明

3. 测试驱动提示（Test-Driven Prompting）

提供Jest/Pytest测试套件，要求AI完美通过测试。这是2026年最有效的代码生成提示技巧之一。

4. 上下文编组（Context Marshalling）

使用伪XML标签（、）分组相关类和接口，帮助模型理解代码结构。

5. 负面约束（Negative Bounding）

显式禁止不推荐的库或O(n²)逻辑。例如："禁止使用已弃用的库"、"避免使用O(n²)算法"。

6. 实用示例

你是一名熟悉Go生态的安全工程师。请为JWT鉴权中间件编写一个gin.HandlerFunc。要求：
- 接收Authorization头中的Bearer token
- 使用github.com/golang-jwt/jwt/v5解析，密钥为硬编码字符串"my-secret-key"
- 若token过期或签名无效，返回401；若claims中缺少"user_id"，返回403
- 验证通过后将user_id注入c.Set("user_id", userID)
- 仅输出Go函数定义，不含package/main/test代码

十二、提示词工程在内容创作中如何应用？

1. 角色定义

通过身份限定激活AI的领域知识库，避免通用化回答。例如："你是一位拥有10年经验的文案大师，风格[简洁专业/幽默风趣/情感共鸣]"。

2. 风格控制

明确要求输出的风格特征，如："用小红书爆款笔记风格写防晒霜推荐"、"采用学术论文的严谨风格"、"使用通俗易懂的语言，避免专业术语"。

3. 受众定位

明确目标受众，如："面向30岁职场女性"、"针对技术人员"、"适合小学生理解"。受众定位越清晰，输出越精准。

4. 内容结构要求

指定输出的结构和组成部分，如："包含标题、3个要点、1个行动建议"、"先提出问题，再分析原因，最后给出解决方案"。

5. 示例引导

提供1-5个示例，展示期望的风格和结构。例如："参考示例：标题：今夏晒不黑的秘密被我挖到了！正文：姐妹们！这个SPF50+的防晒霜居然能当素颜霜用..."

6. 约束条件

列出禁止事项和限制条件，如："回答控制在400字以内"、"只说事实，不加鸡汤"、"禁用第一人称"。

十三、提示词工程在数据分析中如何应用？

1. 提供结构化输入数据

结构化输入数据是抑制AI"幻觉"的关键。设计要点：明确数据格式、提供完整数据、标注数据来源。例如："根据以下用户调研数据生成报告：受访者：500名25-35岁一线城市白领；痛点TOP3：通勤时间长(68%)、会议低效(55%)、加班文化(49%)"。

2. 指定分析方法

明确指定期望的分析方法，如："使用柱状图对比2023年Q1-Q4华北、华东销售额"、"计算同比增长率"、"进行相关性分析"。

3. 要求输出可视化

要求AI生成可视化建议或代码，如："用Python matplotlib绘制柱状图"、"生成HTML交互图表"、"提供Tableau可视化方案"。

4. 解释分析结果

要求AI不仅输出数字，还要解释结果的含义，如："分析销量下降的原因"、"指出数据中的异常值并解释可能的原因"、"给出业务建议"。

5. 多步骤分析

将复杂的数据分析任务分解为多个步骤，逐步完成。例如：

步骤1：数据清洗和预处理
步骤2：描述性统计分析
步骤3：可视化展示
步骤4：深入分析和解释
步骤5：给出结论和建议

十四、提示词工程在客户服务中如何应用？

1. 场景设定

明确客户服务的场景和背景，如："你是一家电商平台的智能客服，需要处理用户的售后问题"。

2. 回答规范

指定回答的格式、语气和内容要求，如："语气友好、专业"、"先道歉再解决问题"、"提供具体的解决步骤"。

3. 情绪控制

要求AI识别用户情绪并适当调整回答风格，如："如果用户情绪激动，先安抚情绪再解决问题"、"保持耐心和同理心"。

4. 知识库集成

通过RAG（检索增强生成）架构，实时接入产品知识库、常见问题解答等，确保回答准确、一致。

5. 升级机制

明确何时需要将问题升级到人工客服，如："如果无法解决问题，引导用户联系人工客服"、"遇到投诉或退款请求，立即转接人工"。

6. 多轮对话管理

设计提示词支持多轮对话，如："记住用户之前提到的问题"、"根据对话历史提供连贯的回答"、"主动询问是否需要进一步帮助"。

十五、提示词工程与微调（Fine-tuning）有什么区别？

1. 核心区别

提示工程：修改输入（提示词），不修改模型权重，在推理时通过指令和示例来引导模型行为
微调：修改模型权重，通过额外训练使模型适应特定任务或领域

2. 速度对比

提示工程：快速迭代，即时看到结果，可在数小时内完成优化
微调：需要准备数据集、训练模型、测试性能，通常需要数天或数周

3. 成本对比

提示工程：低成本，无需训练，无需额外计算资源
微调：高成本，需要GPU计算资源、高质量训练数据、专业技术人员

4. 定制化能力

提示工程：定制化能力有限，无法添加新知识和新能力
微调：高定制化能力，可以添加领域特定知识、专业术语、特定风格

5. 输出一致性

提示工程：输出可能变化，受提示词表述影响
微调：输出稳定一致，即使提示词模糊也能保持高质量

6. 适用场景

提示工程适用于：原型设计、实验探索、灵活任务、需要快速迭代的场景
微调适用于： specialised工具、减少偏见、长期使用、需要高一致性的场景

7. 选择决策框架

根据2026年的最新实践，决策框架如下：

如果任务新且仍在学习阶段 → 使用提示工程
如果需要适应行为，而不是灌输知识 → 使用提示工程
如果需要灵活性，单一基础模型服务多个用例 → 使用提示工程
如果上下文是核心价值（如RAG系统） → 使用提示工程
如果团队缺乏ML基础设施 → 使用提示工程
如果需要灌输领域特定知识 → 使用微调
如果需要高一致性输出 → 使用微调
如果提示词变得越来越长，token成本越来越高 → 使用微调

十六、提示词工程的最新发展趋势是什么？

1. 从Prompt Engineering到Context Engineering

2024-2025年，关注点从"怎么写指令"转向"模型此刻到底需要知道哪些东西"。Context Engineering关注的是AI有什么信息可用，包括：记忆、临时检索来的文档、可调用工具的说明、之前的对话历史。

2. 从Context Engineering到Harness Engineering

2026年初，当Agent要连续跑几个小时、做上百个决定时，前两步又不够了。Harness Engineering关注的是"给它一套能干活的环境"——让Agent守得住规矩。

3. 从Harness Engineering到Loop Engineering

2026年，AI工程的范式再次升级：从手动写提示词，变成设计循环系统。Loop Engineering（循环工程）是你设计一套自动运转的系统，让它代替你去给AI下达指令、检查AI的输出、记录完成进度、决定下一步该做什么，然后不断循环执行。

4. 多模态提示融合

输入不再局限于文本，还可以是图像、音频、视频等。例如：输入产品设计图（图像）+ 技术参数表（文本），输出包含卖点解读、使用场景、竞品对比的营销方案。

5. 动态知识增强

通过RAG（检索增强生成）架构，实时接入行业数据库，确保回答基于最新、最准确的信息。

6. 自动化提示工程

框架（如DSPy）开始帮你优化提示词，而不是手工调。核心理念是"Programming, not prompting"——定义好任务和评估标准，自动迭代找到最优的提示词配置。

7. 提示词工程已成为生产基础设施

提示工程已从2023年的"显学"演变为2026年AI工程化体系中最基本但远非全部的重要组成部分。它不再是"找到魔法形容词"的艺术，而是构建逻辑链和递归循环的系统工程。

十七、如何学习提示词工程？

1. 官方文档和课程

Anthropic的Prompt Engineering with Claude课程：官方推荐的Claude提示工程课程
OpenAI的提示工程指南：GPT模型的提示工程最佳实践
DeepLearning.AI的ChatGPT Prompt Engineering课程：Andrew Ng主讲的提示工程课程
IBM的2026提示工程指南：全面的提示工程学习资源

2. 实践项目

从简单任务开始：摘要、翻译、问答
逐步尝试高级技巧：Few-shot、CoT、ReAct
构建自己的提示词模板库
参与开源项目，贡献提示词优化

3. 社区和论坛

GitHub：搜索提示工程相关的开源项目和代码示例
Reddit：r/PromptEngineering、r/ChatGPT等社区
知乎：关注提示工程话题，阅读实践经验分享
CSDN、腾讯云社区：中文技术社区中的提示工程文章

4. 认证和证书

Anthropic Academy：提供Claude提示工程认证
DeepLearning.AI：提供提示工程证书
腾讯云TVP：腾讯云最具价值专家认证，包含提示工程内容

5. 持续学习

关注2026年的最新趋势：Context Engineering、Harness Engineering、Loop Engineering
学习相关技术：RAG、智能体、多模态AI
实践和迭代：提示工程是实践技能，需要不断尝试和优化

6. 学习路径建议

初学者（1-2周）：

学习提示工程基本概念
掌握五部分模式（角色、上下文、任务、约束、输出格式）
实践10-20个简单任务

进阶者（1-2个月）：

学习高级技巧（Few-shot、CoT、ReAct、ToT）
掌握结构化框架（CRISP、CRISPE、RGC）
实践复杂任务，如代码生成、数据分析

高级者（3-6个月）：

学习Context Engineering、Harness Engineering
掌握自动化提示工程工具（DSPy）
构建生产级AI应用