根据2026年的最新实践,系统提示词的甜蜜点在80-200 tokens。过短的提示词可能无法提供足够的指导信息,而过长的提示词(500+ tokens)可能增加噪音,降低效果。
Few-shot示例中,3-5个示例通常足够。根据最早GPT-3论文的数据,在TriviaQA基准上:
但示例数量继续增加,收益会递减。超过10个示例可能不会带来显著提升,反而增加token成本和延迟。
根据Databricks的研究,模型准确率大约在3.2万个token处就开始滑坡,远没到那些号称百万级的上限。Anthropic的研究也发现"context rot"(上下文腐烂)现象:喂给模型的内容越长,它的准确率反而越容易下滑,哪怕任务本身并不复杂。
过长的提示词可能导致: