大语言模型(LLM)本质上是在做"补全下一个token的概率预测"。模型根据从数十亿行代码和学习到的模式来预测下一个最可能的token。提示词作为"上下文前缀",直接影响模型的预测分布。
提示词质量决定输出质量的核心原理是:明确指令可缩小模型的"猜测空间"。例如,"面向30岁职场女性的时间管理指南"比"写时间管理文章"更精准,因为前者明确了目标受众、主题和角度。
你给的提示词 = 模型看到的"上下文前缀"。前缀差10个token,输出可能天差地别(幻觉率、准确率、格式稳定性)。根据Databricks的研究,准确率大约在3.2万个token处就开始滑坡,远没到那些号称百万级的上限。
提示词工程的核心特征是不修改模型任何参数,仅调整输入内容与格式。这与微调(Fine-tuning)形成鲜明对比——微调需要重新训练模型,而提示工程只在推理时通过指令和示例来引导模型行为。