首页
学习
活动
专区
工具
TVP
发布

从流域到海域

专栏作者
438
文章
496079
阅读量
59
订阅数
最强英文开源模型Llama2架构与技术细节探秘
Meta AI于2023年7月19日宣布开源LLaMA模型的二代版本Llama2,并在原来基础上允许免费用于研究和商用。
Steve Wang
2023-11-21
1.1K1
NEFTune: 通过简单的噪声提升指令精调效果
NEFTune指的是Noise Embedding Finetuning(噪声嵌入精调),提出自论文:NEFTune: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING。
Steve Wang
2023-11-17
2020
最强英文开源模型LLaMA架构探秘,从原理到源码
读完本文,你可能觉得LLaMA会开源并不令人惊讶,因为它的架构可以说是站在巨人肩膀上摘苹果——基本上可以说使用其他模型的组件作为“积木”搭了一个新模型出来,并没有太多实质意义上的创新,但这种敢于开源的勇气和做法使得LLaMA足以在大语言模型上的开源发展历程上成为一个标志性的里程碑。
Steve Wang
2023-10-23
2.1K0
Alpaca构建方式探秘:低成本构造指令数据增强LLM
Alpaca是斯坦福大学在Meta开源的大模型LLaMA 7B基础上使用自构建的52K指令数据重新训练得到的增强模型,它的数据构造和训练成本极低,总计约600美元(数据构建500美元+机器训练100美元),效果却逼近OpenAI的text-davinci-003(GPT 3.5),这篇博客和大家一起学习下alpaca的构建方法。
Steve Wang
2023-10-12
3880
50个Linux常用命令行快捷键(大部分适配Mac OS)
Steve Wang
2023-10-12
6960
LangChain 手记 Conclusion结语
本系列短课展示了大量使用LangChain构建的大语言模型应用,包括处理用户反馈、文档上的问答系统甚至使用LLM来决定发起外部工具的调用(比如搜索)来回答复杂问题。
Steve Wang
2023-10-12
1160
LangChain手记 Agent 智能体
“人们有时会将LLM看作是知识库,因为它被训练所以记住了来自互联网或其他地方的海量信息,因而当你向它提问时,它可以回答你的问题。有一个更加有用的认知模式是将LLM看作是一个推理引擎,如果提供给他文本块或者额外信息,它可以利用从互联网或者其他地方学会的背景知识利用新信息来帮助回答问题或者进行文本推理或者执行下一步动作,这正是LangChain的Agent框架能够帮助你完成的。”
Steve Wang
2023-10-12
4010
LangChain手记 Evalutation评估
“从传统开发转换到基于prompt的开发,开发使用LLM的应用,整个工作流的评估方式需要重新考虑,本节会介绍很多激动人心的概念。”
Steve Wang
2023-10-12
2520
LangChain手记 Question Answer 问答系统
本节介绍使用LangChian构建文档上的问答系统,可以实现给定一个PDF文档,询问关于文档上出现过的某个信息点,LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活,因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用,它涉及到了嵌入(embedding)和向量存储(vector store)。
Steve Wang
2023-10-12
2750
LangChain手记 Chains
将一个大语言模型和prompt模板组合起来调用LLMChain,即可得到一个LLMChain对象,该对象的run实现的功能即给定输入自动使用prompt模板生成prompt,调用LLM得到回复。
Steve Wang
2023-10-12
1900
LangChain手记 Memory
使用open ai的API调用GPT都是单次调用,所以模型并不记得之前的对话,多轮对话的实现其实是将前面轮次的对话过程保留,在下次对话时作为输入的message数组的一部分,再将新一轮对话的提问也放入message数组,再发起一次API调用,即构手动建对话流(以上笔者注)。
Steve Wang
2023-10-12
2250
LangChain手记 Models,Prompts and Parsers
上图示例使用Thought,Action,Observation作为思维链推理(Chain-of-Thought Reasoning.(ReAct框架))的关键词
Steve Wang
2023-10-12
1570
LangChain手记 Overview
LangChain是为大模型应用开发设计的开源框架 LangChain目前提供Python和JavaScript(TypeScript)两种语言的包 LangChain的主攻方向是聚合和模块化
Steve Wang
2023-10-12
1340
LoRA: 大模型快速训练的秘诀
LoRA的提出在上述PEFT方法之后,来自微软的研究者认为,现有的Adapter Tuning和Prefix Tuning这两种方法均有缺点:
Steve Wang
2023-10-12
5350
大模型基础知识 - 语言模型及其演进 公开版
自然语言处理在大语言模型(Large Language Model, LLM)被提出之后,再次取得重大突破:
Steve Wang
2023-10-12
3040
四两拨千斤,训练大模型的PEFT方法
自然语言处理进入大语言模型(Large Language Model, LLM)时代之后,模型的参数量级越来越庞大,以稍早之前的GPT-3为例,它有175B即1亿7千5百万参数,而ChatGPT及后续模型则更大。一方面大语言模型解决自然语言处理任务所需的涌现能力确实需要如此量级的参数,另一方面如此巨大的参数会引起训练成本的急剧增加,甚至从消费级硬件角度来讲,用户全量训练大语言模型的参数的成本令人望而却步。大语言模型已经过pre-training阶段,于是就有学者提出是否能通过finetune一部分少量参数实现下游任务的精调,这催生了一系列PEFT(Parameter-Efficient Fine Tuning,PEFT,可译为参数高效精调)方法。
Steve Wang
2023-10-12
5020
ChatGPT训练流程
图源:cs224n-2023-lecture11-prompting-rlhf.pdf
Steve Wang
2023-10-12
1840
大语言模型高效训练基础知识:优化器AdamW和Adafator
Adam相信很多读者已经了解了,Weight Decay解释起来也比较容易,为了防止过拟合,在计算损失函数时需要增加L2正则项:
Steve Wang
2023-10-12
6890
大模型高效训练基础知识:fp16与混合精度训练
GPU是一种专精浮点数运算的硬件设备,显然处理32位浮点数是处理16位浮点数计算量的2倍还多,在愿意损失一些精度的条件下使用fp16可以加速计算,而且也不会对模型最终的效果产生可感知影响。于是就有人提出了采用fp16来进行训练,具体而言在计算激活值和梯度的时候以fp16精度存储,执行优化算法的时候还原为fp32(缺失位补0),这样最终的效果是模型在GPU上以fp16和fp32两种方式加载,这被称为混合精度训练(mixed precision training),这种方式占用了更少的显存(全精度需要保存2份原始模型,混合精度保存1份原始模型,1份半精度模型,是原始模型的1.5倍),也加速了训练过程,即精度损失换时间。
Steve Wang
2023-10-12
7460
大模型高效训练基础知识:梯度检查点(Gradient Checkpointing)
如今(2023年)大模型的参数量巨大,即使将batch_size设置为1并使用梯度累积的方式更新,也仍然会OOM。原因是通常在计算梯度时,我们需要将所有前向传播时的激活值保存下来,这消耗大量显存。还有另外一种延迟计算的思路,丢掉前向传播时的激活值,在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值,这样做倒是解决了显存不足的问题,但加大了计算量同时也拖慢了训练。
Steve Wang
2023-10-12
5060
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档