前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化

Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化

作者头像
ShuYini
发布2024-03-02 09:34:44
2190
发布2024-03-02 09:34:44
举报

引言

由于大语言模型(LLMs)对给定的提示比较敏感,并且文本任务指令本身就存在歧义性。为了能够让LLMs发挥出最佳性能,自动提示(Auto-Prompt)工程至关重要。

今天给大家分享的这篇文章,提出了一种名为Intent-based Prompt Calibration (IPC) 的系统,旨在通过使用合成案例样本来优化大型语言模型(LLMs)的提示(prompt)工程。「该方法核心思想是根据用户意图迭代地细化提示」, 在优化过程中,系统生成相关案例样本数据集,并根据生成的数据集优化提示。

https://arxiv.org/pdf/2402.03099v1.pdf

背景介绍

近年来,大语言模型(LLMs)的能力得到了显着增强,并在各种任务上展示出了超强性能。然而尽管如此,模型输出的质量对条件提示高度敏感。即使提示格式稍有修改也会显着影响模型的性能。这个问题在专有领域模型中更为明显,一旦模型版本发生改变,模型生成结果将发生巨大变化。

为了解决大模型的提示敏感性问题,有人提出使用软提示(soft-prompt)的方法,但此类方法需要对LLM本身做相应的改变才可进行优化。然而最近的研究表明,可以通过大模型本身来优化提示。为此,每个提示都会根据给定的基准指标分配一个分数。优化过程中,首先通过提供一个元提示(meta-prompt)来迭代执行,这个元提示结合最近几次的提示分数,最后引导模型选出分数更高的提示。评估此类方法需要大量的高质量基准数据,然而此类基准数据并不常见。

天无绝人之路,大型语言模型(LLMs)已被证明在生成高质量和丰富的数据集方面非常有效,这些数据集能够提升模型在多样化任务上的性能。近期的研究展示了LLMs的能力,它们能够细化用户提供的提示,解决初始提示的歧义性。然而,在没有额外信息的情况下,模型必须猜测用户的真实意图,这在许多情况下可能导致不准确的结果。

基于以上背景,本文提出了基于意图的提示校准(IPC, Intent-based Prompt Calibration)系统,该系统旨在通过合成示例根据用户的意图校准提示。校准过程通过迭代构建具有挑战性的样本数据集,并根据生成的基准来优化提示。

IPC

IPC整体系统架构如下图所示,该系统主要由「Dataset」「Estimator」「Evaluator」「Optimizer」四部分组成。

其中:

「Dataset」负责管理数据集,执行数据的插入、修改、删除和应用函数等操作,并进行数据清洗以去除语义重复和进行语义抽样。由于系统优化用于处理小数据集,当前实现基于本地数据库,使用pandas库。

「Estimator」负责估计一批样本,它实现了两种估计器:人类注释和大型语言模型(LLM)估计。支持Argilla UI进行人类注释,以及使用Langchain集成的LLM。为了提高效率,估计器支持并行处理和异步调用,并支持批量估计器,它可以运行多个LLM估计器,并通过聚合层整合输出。

「Evaluator」负责在预测和注释阶段之后评估记录,该组件接受一个函数并将其应用于每一行数据。它还负责定义错误并使用分析器进行错误分析。

「Optimizer」负责管理整个优化过程,执行迭代步骤,并负责停止优化过程并返回最终校准的提示。

IPC系统具体实现流程图如下所示。

本文作者从初始的提示建议和任务描述开始。用户还可以在少量样本的设置中提供一些示例。然后,在校准优化过程中,系统会迭代执行以下步骤:

  • 1.为任务和当前提示提出一些具有挑战性和多样性的样本(对应上图步骤2)。
  • 2.在生成的数据集上评估当前提示,并进行分析(对应上图3)。
  • 3.根据最近几次的提示,生成一个分数更高的提示。当最近几步没有改进,或者达到最大迭代次数时,优化过程就会结束(对应上图4)。

除此之外,本文IPC系统的基线配置针对分类任务进行了优化,将准确度被设定为评分函数,并通过混淆矩阵和提示错误分类进行错误分析。整体系统流程示例如下图所示:

通过上图可以看到,在每次迭代中,根据当前提示生成新的样本,利用这些样本的误分类来细化提示,直到它能够校准到用户的意图。

实验结果

下图展示了Spoiler和PG分类任务的准确性,可以看到IPC在所有测试方法中表现最佳,且方差较低。

下图展示了情感分类任务在合成数据集上不同训练步骤下的准确率。IPC在所有测试方法中表现最佳,且方差较低。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • IPC
  • 实验结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档