前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【大模型AIGC系列课程 3-2】国产开源大模型:ChatGLM

【大模型AIGC系列课程 3-2】国产开源大模型:ChatGLM

作者头像
小爷毛毛_卓寿杰
发布2023-08-28 08:10:32
3520
发布2023-08-28 08:10:32
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

1. GLM

https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。它的主要目标是通过自回归的空白填充来进行预训练,以解决现有预训练框架在自然语言理解(NLU)、无条件生成和有条件生成等任务中表现不佳的问题。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。通过添加二维位置编码和允许任意顺序预测空白,GLM改进了空白填充预训练的性能。

在这里插入图片描述
在这里插入图片描述

这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。在Part B中,我们将被选择的词片段进行洗牌,即改变它们的顺序。在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。每个词片段都以[S]作为输入的前缀,以[E]作为输出的后缀。在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. GLM
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档