首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#lm

大模型理论基础(so-large-lm)课程笔记!

Datawhale

在当前信息时代,大型语言模型(Large Language Models,LLMs)的发展速度和影响力日益显著。随着技术进步,我们见证了从基本的Transfor...

9410

120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B

新智元

见状,不少网友纷纷喊话:干的漂亮!但,Stable Diffusion 3啥时候出啊?

8910

AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1开源代码实现解读)

BBuf

这篇论文对应的链接为:https://openreview.net/pdf?id=tuzTN0eIO5 ,最近被ICLR 2024接收,但不少AI Infra的...

28210

使用LM Studio在本地运行LLM完整教程

deephub

GPT-4被普遍认为是最好的生成式AI聊天机器人,但开源模型一直在变得越来越好,并且通过微调在某些特定领域是可以超过GPT4的。在开源类别中,

2.3K10

像调鸡尾酒一样调制多技能大模型,智源等机构发布LM-Cocktail模型治理策略

机器之心

随着大模型技术的发展与落地,「模型治理」已经成为了目前受到重点关注的命题。只不过,在实践中,研究者往往感受到多重挑战。

14510

切片器相互控制,从容应对同比环比任意月份对比

陈学谦

假设有10个计算字段都要进行同比、环比和任意月份的对比,那么常规做法就是将这10个度量值分别再写10×3=30个度量值。

26300

php安装make出现“collect2:error:ldreturned1exitstatus

network_dream

错误提示: collect2: error: ld returned 1 exit status

31330

matinal:S/4 hana系统中,内表Internal Table的改变

matinal

19710

【RLHF】想训练ChatGPT?先来看看强化学习(RL)+语言模型(LM)吧(附源码)

汀丶人工智能

阿里 · 算法工程师 (已认证)

随着最近 ChatGPT 的大火,越来越多人开始关注其中用到的 RLHF(Reinforcement Learning from Human Feedback)...

46840

LM-Infinite: 一种简单有效的大模型即时长度泛化,解决更长文本推理问题

zenRRan

近年来,LLM在各个领域的性能都有了显著的进展。随着这些LLM被用于越来越复杂的任务,它们经常需要更长的推理过程或理解更大的上下文。在这些情况下,LLM在长序列...

60020

KDD23 | LM+GNN最新 SOTA

Houye

大规模文本语料库上的模型预训练已经被证明在NLP领域的各种下游应用中非常有效。在图挖掘领域,也可以类比预训练图模型在大规模图上,以期望从中获益于下游图应用,这也...

11720

R语言响应面(RSM)、线性模型lm分析生产过程影响因素可视化

拓端

响应面(Response Surface Methodology,RSM)分析是一种常用的统计方法,用于研究和优化生产过程中的影响因素。通过建立数学模型来描述因...

37310

tidymodels工作流:workflow

医学和生信笔记

在阅读这篇文章前,我强烈建议你先读一下tidymodels入门篇:tidymodels用于机器学习的细节,首先对tidymodels有一个整体的认知。

15610

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

BBuf

这篇文章来解析一下Megaton-LM涉及到的一个优化gradient_accumulation_fusion。这里fusion的意思是在gemm接口中会将当前...

91930

Megatron-LM 分布式执行调研

BBuf

Created by: strint Created time: May 31, 2023 6:02 PM

1.2K40

DeepSpeed结合Megatron-LM训练GPT2模型笔记(上)

BBuf

本文基于DeepSpeedExamples仓库中给出的Megatron相关例子探索一下训练GPT2模型的流程。主要包含3个部分,第一个部分是基于原始的Megat...

1.2K80

【DeepSpeed 教程翻译】二,Megatron-LM GPT2,Zero 和 ZeRO-Offload

BBuf

这篇文章主要翻译DeepSpeed的Megatron-LM GPT2 ,Zero零冗余优化器技术,ZeRO-Offload技术。关于DeepSpeed 的Zer...

1.2K10

移动通信客户价值数据挖掘分析实战

张俊红

众所周知,移动通信市场已经日趋饱和,增加规模已经变得异常艰难,通信运营商互挖墙角已经成为家常便事。很多消费者,今天还是中国移动的客户,明天只要中国电信给点好处,...

1.7K30

R语言GARCH族模型:正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数|附代码数据

拓端

VaR方法作为当前业内比较流行的测量金融风险的方法,具有简洁,明了的特点,而且相对于方差来讲,更多的将投资人的损失作为风险具有更好的合理性。

51000

解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF

风雨中的小七

这一章我们介绍固定prompt微调LM的相关模型,他们的特点都是针对不同的下游任务设计不同的prompt模板,在微调过程中固定模板对预训练模型进行微调。以下按时...

1.5K20
领券