前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大模型训练的两个关键雷点 | 技术创作特训营第一期

大模型训练的两个关键雷点 | 技术创作特训营第一期

原创
作者头像
李泽鹏
修改2023-08-11 20:29:26
3610
修改2023-08-11 20:29:26
举报
文章被收录于专栏:神经网络神经网络

把我知乎的几篇原创文章整理更新一下弄过来,避免以后知乎挂了文章没了。

【选题思路】

因为看到网上挺多人对大模型存在误解,而我从事神经网络编写已经十年以上,故写一下我的看法,和大家互相学习。

【写作提纲】

雷点一

雷点二

正文:

我讲两个很关键的雷。

我们的新金融模型盈利了十几年,主要都是通过很多增强算子来做优化的,现在没读过openai论文的新手自认为llm在那堆参数算力就行,其实openai一开始是奔着实现真正的人工智能去的,所以gpt 175 billion parameters(1750亿参数)出自论文:https://arxiv.org/abs/2005.14165

这参数是模仿人类大脑神经细胞的数量去做的,人类大脑细胞数量怎么统计出来的看这里,估计比gpt的参数少点,但同个数量级:http://c.open.163.com/mob/video.htm?plid=M9HKSI13F&mid=M9HNAO4CG

但是呢,毕竟落地效果不太好,模型各种胡言乱语还耗电,openai也是要赚钱养员工的,于是大刀大砍出奇迹,gpt缩小了100倍参数后,效果变好了,见论文:https://arxiv.org/abs/2203.02155

从一个方面简单来讲,算力越大,语料没有花足够时间去校正打更多标签或做高质量的textbook(人类参与反馈),会更拉低模型的智商,更多其他坑后面说。

总之这是第一个雷,因为不仅gpt参数比人脑神经细胞多效果不好,缩小了100倍后反而好了,效率高了,这就有点悬了,为了效率把人脑砍成100分之一怎么看也会影响智商,而且也没把每个计算机神经元朝人类神经元的方式去建设模拟人类神经元细胞核和核外物质以及突触数量,那gpt的智能比起人类肯定是少了东西的。

本文常看常新,我会渐渐更新把一些句子展开来讲,让新手有更好的理解效果。

只堆算力其实就像在叠更多的哈哈放大镜在眼前学画画…或者说更像买更多刀和厨师把肉切碎烤熟装成一盘能分辨出是肉然后想要用熟肉验dna或让dna恢复活性和其他生物活性物质运营大脑(实现真正的人工智能)

如果不是计算机和生物专业的可能看不懂以上内容。我再详细解释下。

现在llm的模型数据都是部分人类知识的二维镜像(即文字,虽然程序员们如火如荼地把文字在模型里变成多维度的数组用以计算输出结果),但二维文字和真实3d、4d世界的关系建设还在很初级的阶段,所以可以看到ai现在讲道理、画平面图、画动图、生成视频总能生出一些乱七八糟不符合正常人逻辑的东西。

几年前年谷歌有个团队发了篇论文《Attention is All You Need》,说要完全抛弃rnn、cnn等网络结构(哈),采用self attention注意力机制来进行“机器学习”,后面详解。

先插一段,注意说“机器学习”的一般都是新手或迎合新手,本质就是写神经网络,我们搞了10年以上神经网络的其实比较喜欢谦虚说自己是在写神经网络,因为说“机器学习”仿佛老在暗示机器有真正的人工智能能自主学习了,有点不谦虚,但我也能理解,因为写神经网络的除了部分写得好的搞金融的翻身了,留在学术界的很长时间都在坐冷板凳甚至被当笑话,能随着软硬件技术发展迎来投资风口期多谈一些梦想使劲落实也不是坏事。

总之谷歌说未来大语言模型(llm)的通用核心架构是transformer转换器,即对整个文本序列上下文关系进行并行编码,提高模型计算文本表征能力(说白了还是数字泛化能力,还看不懂没关系,不影响理解本文,这点我不想浪费时间解释),总之这样模型能处理更多文本,这样openai的chatgpt把transformer decoder only(建议新手理解成优化速度)之后就能堆算力出“奇迹”,但这里其实埋了一个炸新手的雷,后面详解,这里先记住在transformer中,无论两个词包含的距离有多远,联系两者都只需要常数级别的操作数。

之前解决序列任务的模型一般为cnn、rnn,其中一些效果好的模型用了注意力机制。所以谷歌就决定放弃cnn、rnn结构,只用注意力机制,发现在任务上花时间更少达到更好效果,谷歌指出模型不并行效率不行,例如rnn的每个节点的计算都依赖于上一节点,所以多个rnn的block只能串行。transformer则放弃传统的循环结构,可以忽视词与词之间距离,即有注意力机制,并行性、模型记忆能力就高点。

总之谷歌强调transformer是第一个放弃卷积(建议新手理解成强时间关联性),也就是说谷歌设计的所谓模型更懂向更久之前和获取更远之外的知识来组织解决方案了。

那第二个雷要来了。

gpt是decoder only不是decode only,注意后面的decode少了一个r,这段看不懂其实没关系,可以跳过,总之有些媒体如果老是decode only,证明可能根本没亲手复现过gpt,甚至连nlp(自然语言处理)都没入门写过代码,因为decoder only说的是gpt does not require the encoder part of the original transformer architecture,也就是gpt不需要原始transformer的encoder,但是input还是需要基本的token decode(词编码),也就是token embeddings、positional embeddings之类,看不懂没关系跳过这段。

回归正题,transformer也用encoder切割input并编码成一堆概率常数之类的东西,而decoder解码这些常数组织内容输出。

也就是说,假设这套理论真的能产生真正的人工智能,那也得把人类所有的知识全部用常数排列好大小来表示概率,这也就是openai创始人口中的对准(Alignment)、校正、修正工作的一部分。openai有个Alignment team专门雇佣一堆人陆续来给数据打标签然后用写的程序做成模型来校准一大堆错误,这部分详细内容可以看论文里讲的。

那怎么把人类的全部知识都用常数排列好大小来表示概率呢?当然要人人来当程序员改进chatgpt了…

而另一个问题是人类还未发现的规律和还未发明的知识呢?chatgpt也许可以发现发明,但是注意了,这个模型里没有对新发现、新发明排序检验正确与否的能力…甚至现在检验旧知识是否正确的能力也是严重不完整的,所以它会产生很多很多错误。

然后又是老生常谈的那段了:

在自监督学习中,以 GPT 家族为代表的自回归大型语言模型(Auto-Regressive LLM简称AR-LLM)的原理是根据上文或者下文来预测后一个 token(此处的 token 可以是字词句,也可以是图像块或语音片段)。 e 是任意生成的 token 可能将我们带离正确答案集的概率,长度为 n 的答案最终为正确答案的概率就是 P (correct) = (1-e)^n。按照这个算法,错误会不断积累,而正确性则呈指数级下降。表面上看可以通过将 e 变小来缓解这个问题(通过训练、缩减算力参数、拒答问题…),但问题是真正的n集等于整个宇宙,而e集目前看来是无限大,除非人类不会犯错,导致作出的ai不会犯错。

总之根据以上可以推导出llm校正是个长期的过程。

这导致现在llm看起来像是一个损失质量并产生海量错误的哈哈放大镜,用户解压不出本质数据,只能用那个webui或api当哈哈放大镜看被高度扭曲的数据的一个表面,因为对于智慧来说,大语言模型还缺少太多人类的智慧常数概率化,也没有在真实世界排列检验这些概率常数是否正确的能力。

所以人类只要足够努力学习、创业创新,就永远不会被现在这种大模型取代,因为它们永远需要人类教育它们帮它们指出错误(此处应来一首高燃的歌曲)。

回到开头,所以现在llm们是一坨做好煮熟的肉,也许有美味的卤脑,但它们不是活着会改进自己的大脑和肉体,它们依旧依赖厨师(程序员)和厨具(算力)。除非llm会根据所有人类的反馈不断得修正自己的常数概率映射库,但是要听哪些人类的话呢?互相矛盾的话又怎么处理呢,这些都需要在未来完善,目前这类产品还需要更多的市场实践验明效果,而且也不是llm一定能自己改变的,这都依赖于程序员给llm写的逻辑。但另一面,为2c、2b建立各种子库怎么减少对大模型的越狱危害,即防止c端、b端利用大模型做大模型禁止的坏事,也是未来需要完善的代码。

再说模型训练,现在超深的transformer网络 ,可以将模型深度扩展到1000层以上,可以把前面两句简单理解为用来建立知识之间的逻辑关系,但是知识的逻辑性仍存在问题,这证明恐怕有些知识的逻辑联系是在1000层之上的,推理它们之间的关系需要更多的层次,很多人听过蝴蝶效应,蝴蝶煽动一下翅膀,可能会影响全球多少亿个气体分子和气体分子之外的多少亿个物质分子,那区区1000层之上的transformer加上有限亿个数量的参数够不够推理这些呢?人的身体除了大脑神经细胞之外又有多少亿个分子,大模型真的能建立起来这里面的逻辑关系吗?这都是未来研究的可能方向,增加人类准确反馈、算力和优化软硬件算法效率也许可以解决这个层问题,甚至第一个雷,但是第二个雷怎么排呢?我暂时想不通,希望大家一起努力或高人指点了。

也许未来市场还是各种细分场景的深耕。

【选题思路】

因为看到网上挺多人对大模型存在误解,而我从事神经网络编写已经十年以上,故写一下我的看法,和大家互相学习。

【写作提纲】

雷点一

雷点二

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档