LLM Agent中间插个队,总结下指令微调、对齐数据相关的方案,已经凑够7篇论文可以召唤神龙啦!Data-Centric的观点比较一致:指令微调也就是对齐阶段的数据质量>>数量,少量+多样+高质量的对齐数据,就能让你快速拥有效果杠杠的模型。注意以上三者是充分必要关系,不是说数据越少越好,是三者的有机统一。
如果你对指令微调还不甚了解,建议先看看下解密Prompt系列4. 升级Instruction Tuning。
当前对指令微调SFT的认知有几种
两个思路其实殊途同归,重心落在任务+对齐,既基于用户指令应该召回模型预训练学习的哪些知识,以及把这些知识用什么样的格式和风格进行输出,类似于把预训练学习的知识重新排列组合并输出。可以类比探测Bert Finetune对向量空间的影响,只不过指令微调调整的高维空间更加细分多样。
于是才有本章的讨论,那我们构建质量更高,覆盖范围更广的数据,是否比随机造大量的指令数据效果要更好。毕竟你抖音刷1000条杂七杂八的中医养生小知识,可能比不上精读黄帝内经+神农本草不是~
论文:LIMA: Less Is More for Alignment 要点:人工构建1K高质量样本用于对齐,高质量主要指输出的风格一致性,以及输入的多样性
LIMA是比较早提出Quality Over Quantity观点的论文。论文提出一个假设是模型的知识和能力几乎全部是预训练阶段注入的。而指令微调阶段的对齐只是学习和人类交互的回答形式。因此一个输入多样,输出形式一致的高质量指令数据集能帮模型快速学到回答形式。
指令数据集的构建方式是人工从Stack Exchange, wikiHow和Reddit里面分类筛选更高质量的问题和回答,来构建指令样本集。我们具体说下Stack Exchange样本的构建,其他两个思路是一致的
除了使用已有的QA数据,几位作者还人工构建了200条基于个人偏好随机创建的prompt,以及编写的回答,在回答编写过程中核心是注意回答风格的一致性。重要的事情说三遍,一致性,一致性,一致性。论文反复强调一致的回答风格可以加速模型收敛。
论文使用的是65B的LLAMA模型,1000条样本,微调了15个epoch,lr=1e-5, batch=32, max_seq_len =2048。最终是人工在验证集打分上,选择了5-10个epoch之间的checkpoint。
论文针对数据集的质量,数量和多样性进行了消融实验,如下图
这里论文选择的样本数本身并无非常大的参考意义,因为这和选择的基座模型,模型大小,数据本身的多样性都相关,所以需要具体模型具体分析。
论文:AlpaGasus: Training A Better Alpaca with Fewer Data 代码:https://lichang-chen.github.io/AlpaGasus/ 数据: https://github.com/gururise/AlpacaDataCleaned/ 要点:模型自动化筛选高质量指令微调样本
论文起名终于从和动物纠缠不清,到开始上天入地,模型起名AlpaGasus=Alpaca+Pegasus,故名飞天羊驼,哈哈最近总会让人不由自主想到飞天茅台......
对比LIMA,ALPAGASUS没有对什么是高质量进行很明确的定义,但是提出了自动化样本过滤的方案,成本更低,更简单粗暴。从原始52K的ALPACA样本中使用大模型自动筛选高质量的9K样本进行模型微调。
论文在以下4个测试集上进行评估,使用GPT-4给原始Alpaca和飞天羊驼进行偏好打分,胜率如下,在不同量级的训练样本上,飞天羊驼以80%+的胜率超越Alpaca,当训练样本在9K左右的时候,胜率最高~
自动样本过滤机制比较简单,就是使用如下Prompt,让Chatgpt给(instruction, input, response)的三元组样本进行打分,并根据最终的打分分布,选定4.5分作为阈值,筛选打分>4.5的9K样本用于下游模型微调。
论文还进行了消融实验,对比了不同的筛选阈值得到的不同训练样本量的影响,3k/6k/9k中9K的样本量级,模型效果最好,但超过后模型效果会有下降。延伸下大概就是高质量的数据越多越好,但低质量的数据越少越好。同时对比了随机采样9K作为作为对照组,效果是显著差于使用模型打分筛选出的9K样本。
自动化数据筛选看起来非常美好且梦幻,但笔者本人有一个疑问,论文使用chatgpt来筛选样本,又用GPT4作为评估,是否会引入bias,这个bias主要来自chatgpt和gpt4相对一致的偏好。这一点除非引入人工评估,或者多个大模型例如Claude之类同时进行最终的评估打分,否则个人感觉可能出现妈妈看自己的孩子咋看都好看的情况......
论文:Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning 要点:聚类过滤相似度高的样本,筛选多样性样本用于对齐
LTD的样本筛选中心放在多样性,在任务微调上只使用0.5%的训练样本,还比原有效果提升了2%。论文对多样性给出了更形象的描述就是用最少的样本,去近似刻画当前全部指令集的空间分布。这么一描述,其实答案已经呼之欲出了,跑不了cluster,KNN,k-center这些方案,论文实现如下
具体分成3个步骤
除了以上介绍的论文之外,还有几篇论文思想也或有相似,包括以下Reference中的
想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryPrompt
我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。