开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Auto-Prompt | 大模型提示(Prompt)优化新方法IPC：可根据用户意图进行定向优化

Auto-Prompt | 大模型提示(Prompt)优化新方法IPC：可根据用户意图进行定向优化

ShuYini

发布于 2024-03-02 09:34:44

发布于 2024-03-02 09:34:44

1.3K0

举报

文章被收录于专栏：自然语言处理(NLP)论文速递自然语言处理(NLP)论文速递

引言

由于大语言模型（LLMs）对给定的提示比较敏感，并且文本任务指令本身就存在歧义性。为了能够让LLMs发挥出最佳性能，自动提示（Auto-Prompt）工程至关重要。

今天给大家分享的这篇文章，提出了一种名为Intent-based Prompt Calibration (IPC) 的系统，旨在通过使用合成案例样本来优化大型语言模型（LLMs）的提示（prompt）工程。「该方法核心思想是根据用户意图迭代地细化提示」，在优化过程中，系统生成相关案例样本数据集，并根据生成的数据集优化提示。

https://arxiv.org/pdf/2402.03099v1.pdf

背景介绍

近年来，大语言模型（LLMs）的能力得到了显着增强，并在各种任务上展示出了超强性能。然而尽管如此，模型输出的质量对条件提示高度敏感。即使提示格式稍有修改也会显着影响模型的性能。这个问题在专有领域模型中更为明显，一旦模型版本发生改变，模型生成结果将发生巨大变化。

为了解决大模型的提示敏感性问题，有人提出使用软提示（soft-prompt）的方法，但此类方法需要对LLM本身做相应的改变才可进行优化。然而最近的研究表明，可以通过大模型本身来优化提示。为此，每个提示都会根据给定的基准指标分配一个分数。优化过程中，首先通过提供一个元提示（meta-prompt）来迭代执行，这个元提示结合最近几次的提示分数，最后引导模型选出分数更高的提示。评估此类方法需要大量的高质量基准数据，然而此类基准数据并不常见。

天无绝人之路，大型语言模型（LLMs）已被证明在生成高质量和丰富的数据集方面非常有效，这些数据集能够提升模型在多样化任务上的性能。近期的研究展示了LLMs的能力，它们能够细化用户提供的提示，解决初始提示的歧义性。然而，在没有额外信息的情况下，模型必须猜测用户的真实意图，这在许多情况下可能导致不准确的结果。

基于以上背景，本文提出了基于意图的提示校准（IPC， Intent-based Prompt Calibration）系统，该系统旨在通过合成示例根据用户的意图校准提示。校准过程通过迭代构建具有挑战性的样本数据集，并根据生成的基准来优化提示。

IPC

IPC整体系统架构如下图所示，该系统主要由「Dataset」、「Estimator」、「Evaluator」、「Optimizer」四部分组成。

其中：

「Dataset」负责管理数据集，执行数据的插入、修改、删除和应用函数等操作，并进行数据清洗以去除语义重复和进行语义抽样。由于系统优化用于处理小数据集，当前实现基于本地数据库，使用pandas库。

「Estimator」负责估计一批样本，它实现了两种估计器：人类注释和大型语言模型（LLM）估计。支持Argilla UI进行人类注释，以及使用Langchain集成的LLM。为了提高效率，估计器支持并行处理和异步调用，并支持批量估计器，它可以运行多个LLM估计器，并通过聚合层整合输出。

「Evaluator」负责在预测和注释阶段之后评估记录，该组件接受一个函数并将其应用于每一行数据。它还负责定义错误并使用分析器进行错误分析。

「Optimizer」负责管理整个优化过程，执行迭代步骤，并负责停止优化过程并返回最终校准的提示。

IPC系统具体实现流程图如下所示。

本文作者从初始的提示建议和任务描述开始。用户还可以在少量样本的设置中提供一些示例。然后，在校准优化过程中，系统会迭代执行以下步骤：

1.为任务和当前提示提出一些具有挑战性和多样性的样本（对应上图步骤2）。
2.在生成的数据集上评估当前提示，并进行分析（对应上图3）。
3.根据最近几次的提示，生成一个分数更高的提示。当最近几步没有改进，或者达到最大迭代次数时，优化过程就会结束（对应上图4）。

除此之外，本文IPC系统的基线配置针对分类任务进行了优化，将准确度被设定为评分函数，并通过混淆矩阵和提示错误分类进行错误分析。整体系统流程示例如下图所示：

通过上图可以看到，在每次迭代中，根据当前提示生成新的样本，利用这些样本的误分类来细化提示，直到它能够校准到用户的意图。

实验结果

下图展示了Spoiler和PG分类任务的准确性，可以看到IPC在所有测试方法中表现最佳，且方差较低。

下图展示了情感分类任务在合成数据集上不同训练步骤下的准确率。IPC在所有测试方法中表现最佳，且方差较低。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-02-28，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

目录

引言

背景介绍

IPC

实验结果