前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「论文阅读」还在手写Prompt,自动Prompt搜索超越人类水平

「论文阅读」还在手写Prompt,自动Prompt搜索超越人类水平

原创
作者头像
百川AI
修改2024-04-09 21:51:15
2120
修改2024-04-09 21:51:15
举报
文章被收录于专栏:我还不懂对话我还不懂对话

每周论文阅读笔记,来自于2023LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS code:https://github.com/keirp/automatic_prompt_engineer

手写prompt确实很费脑筋,但其实本身大语言模型就是一个很好的自动prompt工具,APE文章提出自动prompt工程(Automatic Prompt Engineer),利用语言模型+蒙特卡洛搜索 自动的寻找最优的Prompt样例,最终在多项任务的效果几乎达到人类水平。

应用场景包括: 1)few-shot learning(in-context learning prompts); 2)zero-shot(chain-of-thought prompts);

方案思想

  • Few-shot: 1)利用语言模型生成候选: 描述任务,输入样本,利用语言模型生成候选。2)利用语言模型对候选评分:以候选作为prompt,输出对应测试case的output,通过label验证。过滤掉得分太低的prompt候选。3)利用语言模型复述:过滤出来的高得分候选,对高得分候选进行改写,然后扩充更多相似的候选。

整个算法伪代码:

细节: 1. 计算量控制:由于评分阶段计算量很大,会对数据进行切分多段进行分段评估过滤。2. 候选生成多样性:改变生成 instructions 的位置,包括最后、中间,以及改写。

  • Zero-shot: 因为没有样本,相对比较简单,自动的prompt话术是通用的,不会有人类针对特定任务详细的描述(但是可以二者结合),作者将其称为Chain of thought prompts

评估

  1. Few-shot任务上都有所提升:
  1. Zero-shot上的表现:Chain of thoughts思想,APE的生成结果确实带来了显著提升,即使相比于人类也有明显提升。

作者还做了定量分析:

  • 不同参数量的模型:可以看到曲线中最大的提升还是来自于模型参数量,对于大模型提升较小。(所以这里怀疑这些工作可能后面随着模型优化意义不大,当然国内大模型情况下还是非常有用的🐶)
  • 不同蒙特卡洛搜索次数下的候选:随着迭代次数越多,同准确率下instructions数量越多,证明了方法有效提升多样性。

后记:prompt工程分为soft prompts和natural language prompt,ChatGpt后的语言模型基本都是natural language prompt,本文也是后者。

Reference

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 方案思想
  • 评估
  • Reference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档