首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#hidden

超过GPT3.5?Mixtral 8*7B 模型结构分析

Datawhale

2023年12月11日,Mistral AI团队发布了一款高质量的稀疏专家混合模型Mixtral 8x7B。

1000

Mixtral MOE 部分源码解析

ApacheCN_飞龙

9110

select 下拉框获取多值

六月的雨在Tencent

6610

ChatGLM3 源码解析(一)

ApacheCN_飞龙

23710

单行和多行文字溢出处理方式

不爱吃糖的程序媛

9910

聊聊ChatGLM-6B源码分析(二)

Ryan_OVO

GLM模型中位置编码是2D的,有两层的位置表示,分别是序列的位置表示和mask block的位置表示。由get_position_ids函数处理。positio...

18810

聊聊ChatGLM中P-tuning v2的应用

Ryan_OVO

论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf

17310

图神经网络:分子可溶性预测

Tom2Code

也是torch_geometric自带的一个数据集,专门用于图神经网络入门的开胃小菜。

10010

聊聊ChatGLM-6B的源码分析

Ryan_OVO

作用:在微调时(以P-Tuning V2为例),方法训练时冻结模型的全部参数,只激活PrefixEncoder的参数。 其源码如下,整体来看是比较简单的。

31910

numpy实现神经网络

小小程序员

任何优化算法都需要一些初始的参数。到目前为止我们都是初始所有参数为0,这样的初始方法对于逻辑回归来说是可行的,但是对于神经网络来说是不可行的。如果我们令所有的初...

18920

自然语言处理(一):RNN

冷冻工厂

「循环神经网络」(Recurrent Neural Network,RNN)是一个非常经典的面向序列的模型,可以对自然语言句子或是其他时序信号进行建模。进一步讲...

24330

ChatGLM2 源码解析:`GLMTransformer`

ApacheCN_飞龙

26620

ChatGLM2 源码解析:`ChatGLMForConditionalGeneration.forward`

ApacheCN_飞龙

29420

ChatGLM2 源码解析:`ChatGLMModel`

ApacheCN_飞龙

40830

ChatGLM2 源码解析:`GLMBlock`

ApacheCN_飞龙

24440

ChatGLM2 源码解析:`MLP`

ApacheCN_飞龙

26820

Albert 源码解析:分组复用

ApacheCN_飞龙

config.inner_group_num是组内TFBlock数量,这里记为 GS,num_hidden_layers是总的 TFBlock 层数,记为 LC...

10930

AttentionFreeTransformer 源码解析(一):AFTFull、AFTSimple、AFTLocal

ApacheCN_飞龙

10130

Bert Pytorch 源码分析:四、编解码器

ApacheCN_飞龙

15630

Bert Pytorch 源码分析:三、Transformer块

ApacheCN_飞龙

21330
领券