腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从流域到海域

专栏作者

438

文章

496079

阅读量

59

订阅数

最强英文开源模型Llama2架构与技术细节探秘

开源架构模型实践数据

Meta AI于2023年7月19日宣布开源LLaMA模型的二代版本Llama2，并在原来基础上允许免费用于研究和商用。

2023-11-21

1.1K1

NEFTune: 通过简单的噪声提升指令精调效果

论文模型数据算法原理

NEFTune指的是Noise Embedding Finetuning（噪声嵌入精调），提出自论文：NEFTune: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING。

2023-11-17

2020

最强英文开源模型LLaMA架构探秘，从原理到源码

开源架构模型原理源码

读完本文，你可能觉得LLaMA会开源并不令人惊讶，因为它的架构可以说是站在巨人肩膀上摘苹果——基本上可以说使用其他模型的组件作为“积木”搭了一个新模型出来，并没有太多实质意义上的创新，但这种敢于开源的勇气和做法使得LLaMA足以在大语言模型上的开源发展历程上成为一个标志性的里程碑。

2023-10-23

2.1K0

Alpaca构建方式探秘：低成本构造指令数据增强LLM

svg input 模型数据 LLM

Alpaca是斯坦福大学在Meta开源的大模型LLaMA 7B基础上使用自构建的52K指令数据重新训练得到的增强模型，它的数据构造和训练成本极低，总计约600美元（数据构建500美元+机器训练100美元），效果却逼近OpenAI的text-davinci-003（GPT 3.5），这篇博客和大家一起学习下alpaca的构建方法。

2023-10-12

3880

50个Linux常用命令行快捷键（大部分适配Mac OS）

linux mac 快捷键命令行搜索

2023-10-12

6960

LangChain 手记 Conclusion结语

翻译工具系统效率优化

本系列短课展示了大量使用LangChain构建的大语言模型应用，包括处理用户反馈、文档上的问答系统甚至使用LLM来决定发起外部工具的调用（比如搜索）来回答复杂问题。

2023-10-12

1160

LangChain手记 Agent 智能体

agent 翻译工具函数搜索

“人们有时会将LLM看作是知识库，因为它被训练所以记住了来自互联网或其他地方的海量信息，因而当你向它提问时，它可以回答你的问题。有一个更加有用的认知模式是将LLM看作是一个推理引擎，如果提供给他文本块或者额外信息，它可以利用从互联网或者其他地方学会的背景知识利用新信息来帮助回答问题或者进行文本推理或者执行下一步动作，这正是LangChain的Agent框架能够帮助你完成的。”

2023-10-12

4010

LangChain手记 Evalutation评估

工具开发可视化模型数据

“从传统开发转换到基于prompt的开发，开发使用LLM的应用，整个工作流的评估方式需要重新考虑，本节会介绍很多激动人心的概念。”

2023-10-12

2520

LangChain手记 Question Answer 问答系统

存储模型系统自然语言处理 LLM

本节介绍使用LangChian构建文档上的问答系统，可以实现给定一个PDF文档，询问关于文档上出现过的某个信息点，LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活，因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用，它涉及到了嵌入（embedding）和向量存储（vector store）。

2023-10-12

2750

LangChain手记 Chains

变量对象翻译路由模型

将一个大语言模型和prompt模板组合起来调用LLMChain，即可得到一个LLMChain对象，该对象的run实现的功能即给定输入自动使用prompt模板生成prompt，调用LLM得到回复。

2023-10-12

1900

LangChain手记 Memory

存储 memory 变量模型数组

使用open ai的API调用GPT都是单次调用，所以模型并不记得之前的对话，多轮对话的实现其实是将前面轮次的对话过程保留，在下次对话时作为输入的message数组的一部分，再将新一轮对话的提问也放入message数组，再发起一次API调用，即构手动建对话流（以上笔者注）。

2023-10-12

2250

LangChain手记 Models,Prompts and Parsers

models 变量翻译模型源码

上图示例使用Thought,Action,Observation作为思维链推理（Chain-of-Thought Reasoning.(ReAct框架)）的关键词

2023-10-12

1570

LangChain手记 Overview

代理翻译工具模块化模型

LangChain是为大模型应用开发设计的开源框架 LangChain目前提供Python和JavaScript（TypeScript）两种语言的包 LangChain的主攻方向是聚合和模块化

2023-10-12

1340

LoRA: 大模型快速训练的秘诀

存储迁移模型内存 LoRa

LoRA的提出在上述PEFT方法之后，来自微软的研究者认为，现有的Adapter Tuning和Prefix Tuning这两种方法均有缺点：

2023-10-12

5350

大模型基础知识 - 语言模型及其演进公开版

神经网络 svg 强化学习架构模型

自然语言处理在大语言模型（Large Language Model, LLM）被提出之后，再次取得重大突破：

2023-10-12

3040

四两拨千斤，训练大模型的PEFT方法

存储架构论文模型网络

自然语言处理进入大语言模型（Large Language Model, LLM）时代之后，模型的参数量级越来越庞大，以稍早之前的GPT-3为例，它有175B即1亿7千5百万参数，而ChatGPT及后续模型则更大。一方面大语言模型解决自然语言处理任务所需的涌现能力确实需要如此量级的参数，另一方面如此巨大的参数会引起训练成本的急剧增加，甚至从消费级硬件角度来讲，用户全量训练大语言模型的参数的成本令人望而却步。大语言模型已经过pre-training阶段，于是就有学者提出是否能通过finetune一部分少量参数实现下游任务的精调，这催生了一系列PEFT（Parameter-Efficient Fine Tuning，PEFT，可译为参数高效精调）方法。

2023-10-12

5020

ChatGPT训练流程

强化学习 agent chatgpt 翻译模型

图源：cs224n-2023-lecture11-prompting-rlhf.pdf

2023-10-12

1840

大语言模型高效训练基础知识：优化器AdamW和Adafator

存储论文模型算法优化

Adam相信很多读者已经了解了，Weight Decay解释起来也比较容易，为了防止过拟合，在计算损失函数时需要增加L2正则项：

2023-10-12

6890

大模型高效训练基础知识：fp16与混合精度训练

存储框架模型硬件优化

GPU是一种专精浮点数运算的硬件设备，显然处理32位浮点数是处理16位浮点数计算量的2倍还多，在愿意损失一些精度的条件下使用fp16可以加速计算，而且也不会对模型最终的效果产生可感知影响。于是就有人提出了采用fp16来进行训练，具体而言在计算激活值和梯度的时候以fp16精度存储，执行优化算法的时候还原为fp32（缺失位补0），这样最终的效果是模型在GPU上以fp16和fp32两种方式加载，这被称为混合精度训练（mixed precision training），这种方式占用了更少的显存（全精度需要保存2份原始模型，混合精度保存1份原始模型，1份半精度模型，是原始模型的1.5倍），也加速了训练过程，即精度损失换时间。

2023-10-12

7460

大模型高效训练基础知识：梯度检查点（Gradient Checkpointing）

gradient model 框架模型优化

如今（2023年）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。

2023-10-12

5060

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态