腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
大语言模型,算力共享
大语言模型和算力共享
专栏成员
举报
52
文章
12548
阅读量
16
订阅数
订阅专栏
申请加入专栏
全部文章(52)
腾讯技术创作特训营S8(26)
腾讯技术创作特训营S9(12)
腾讯技术创作特训营S11#重启人生(11)
腾讯技术创作特训营S10(3)
搜索文章
搜索
搜索
关闭
大型概念模型(LCM):句子嵌入空间:SONAR嵌入空间
腾讯技术创作特训营S11#重启人生
“Large Concept Models: Language Modeling in a Sentence Representation Space” 介绍了一种新的语言模型架构——大型概念模型(LCM),它在句子表示空间中进行建模,有别于传统的基于词元(token)的语言模型。
zhangjiqun
2025-01-13
125
0
RAG技术:是将知识库的文档和问题共同输入到LLM中
腾讯技术创作特训营S11#重启人生
RAG技术是先从知识库中检索出与问题相关的文档片段,然后将这些检索到的**文档片段与问题**一起输入到LLM中进行回答。具体过程如下:
zhangjiqun
2025-01-12
275
0
TextGrad的原理及实现:根据文本进行梯度下降,主要是在提示词工程
腾讯技术创作特训营S11#重启人生
TextGrad把LLM的应用视为一个**计算图**,自然语言充当了实现不同组件间“梯度”传递的媒介。它借助从**语言模型的输出向所有可能的早期组件进行反向传播文本反馈的方式**,来对各种系统内的各类变量进行优化。
zhangjiqun
2025-01-09
263
0
TextGrad不仅用于提示词工程还可用于其他场景
腾讯技术创作特训营S11#重启人生
TextGrad不专门用于提示词工程。虽然它在提示词工程方面有很好的应用效果,但它的功能和应用场景远不止于此,具体如下:
zhangjiqun
2025-01-09
151
0
联邦学习中数据集不均问题怎么解决
腾讯技术创作特训营S11#重启人生
- 尽管数据集的范围是0 - 2,但可以通过一些简单的数学变换来扩充数据。例如,对于数值型数据,可以对每个数据点进行微小的随机扰动。如果数据是整数,可以在原始数据的基础上加上或减去一个小的整数(如 - 1、0、1),这样可以在不改变数据本质特征的情况下增加数据的多样性。
zhangjiqun
2025-01-08
159
0
大型语言模型(LLM)中的tokens是什么
腾讯技术创作特训营S11#重启人生
在大型语言模型(LLM)中,tokens是文本处理的基本单位,它可以是**一个单词、一个字符、一个标点符号,或者是一个特殊的标记**。以下是关于tokens的详细介绍及举例:
zhangjiqun
2025-01-08
438
0
PEFT 技术及简单举例
腾讯技术创作特训营S11#重启人生
PEFT(Parameter Efficient Fine-Tuning,参数高效微调)是一种用于优化大型预训练模型微调的技术,旨在提高模型在新任务上的性能,同时减少微调参数的数量和计算复杂度。
zhangjiqun
2025-01-07
171
0
MOE怎样划分不同专家
腾讯技术创作特训营S11#重启人生
- **随机划分**:将FFN中的神经元随机地均匀划分为多个子集,每个子集独立组成一个专家。例如在LLaMA-MoE模型的构建中,采用**非重叠随机拆分法**,将FFN层中的中间神经元均匀分割成**多个子集,每个子集对应一个专家网络**。
zhangjiqun
2025-01-06
118
0
模型并行、数据并行、流水线并行以及混合并行的适用场景、优劣
腾讯技术创作特训营S11#重启人生
- **适用场景**:**适用于模型规模相对较小,能够在单个计算设备(如 GPU)上完整运行**,但训练数据量巨大的情况。例如在大规模图像分类任务中,常见的卷积神经网络模型(如 ResNet、VGG 等)在处理大规模图像数据集(如 ImageNet 或更大规模的自定义数据集)时,数据并行能有效利用多个计算设备加速训练。
zhangjiqun
2025-01-05
133
0
流水线并行 在推理过程中优势与实质
腾讯技术创作特训营S11#重启人生
- **提高计算资源利用率**:流水线并行可以将模型的不同部分分配到不同的计算单元(如 GPU)上,使这些计算单元能够同时工作。例如,对于一个具有多个层的神经网络模型,将前几层放在一个 GPU 上,中间几层放在另一个 GPU 上,后几层放在第三个 GPU 上。在推理时,数据可以依次在这些 GPU 上流动进行处理,减少了单个计算单元的空闲时间,充分利用了多个计算单元的计算能力,提高了整体的计算吞吐量。
zhangjiqun
2025-01-04
126
0
主机和边缘设备实现分布式LLM推理
腾讯技术创作特训营S11#重启人生
在自己家庭中通过主机和边缘设备实现分布式LLM推理具有一定的可行性和挑战性。其优势在于能保护隐私、降低成本、可定制化等,但也存在硬件性能有限、网络带宽不足、配置复杂等问题.以下是一些相关的公司和项目:
zhangjiqun
2024-12-25
189
0
前向和反向传播计算量差异;梯度计算和矩阵运算之间的计算量差异
腾讯技术创作特训营S10
今日推荐:大数据传输中的二进制加密方案文章链接:https://cloud.tencent.com/developer/article/2465816这篇文章深入浅出地探讨了数据加密技术,包括对称加密、非对称加密和哈希算法,并通过实际代码示例展示了AES加密的实现过程。同时,文章还讨论了数据传输中的安全性问题,提出了不依赖加密算法的数据传输安全方案
zhangjiqun
2024-11-27
159
0
大模型的并行计算:多头切片技术;降低显存占用的机制
腾讯技术创作特训营S10
文章链接:https://cloud.tencent.com/developer/article/2465816
zhangjiqun
2024-11-16
150
0
大模型参数大小,占用多少字节,验证环节需要多少算力;“100B Token,支持8K上下文”是什么意思 ;Llama模型;
腾讯技术创作特训营S10
推荐文章:深入探索MyBatis-Plus:高效实现字段模糊查询的秘诀-腾讯云开发者社区-腾讯云
zhangjiqun
2024-11-11
1.1K
0
关于联邦学习 每个参与者的 每次epoch结果是否需要聚合;联邦学习流程
腾讯技术创作特训营S9
在联邦学习的典型流程中,每个参与者(也称为客户端或设备)会在本地数据集上执行多个epoch的训练。在每个epoch结束后,参与者会计算本地模型的更新(例如,权重更新)。这些本地更新随后被发送到中央服务器(也称为聚合器或协调器)。
zhangjiqun
2024-10-04
250
0
联邦学习中的模型异构 :知识蒸馏
腾讯技术创作特训营S9
想象一下,在联邦学习的广阔舞台上,每个参与者都拥有自己独特的“武器”——不同的模型结构和训练方法。这就是模型异构!它可能源于卷积神经网络CNN与递归神经网络RNN的激烈对决,也可能源于学习率大小的微妙差异,甚至可能源于数据预处理方法的独特选择。
zhangjiqun
2024-10-03
547
0
大语言模型(LLM)的子模块拆拆分进行联邦学习;大语言模型按照多头(Multi-Head)拆分进行联邦学习
腾讯技术创作特训营S9
大语言模型(LLM)的子模块拆分进行联邦学习,主要涉及到将大模型的不同部分或功能模块在多个客户端或设备上进行分布式训练,同时保护数据隐私并提升模型性能。以下是一种可能的方式及简单示例:
zhangjiqun
2024-10-02
210
0
揭秘联邦学习与知识蒸馏:医疗诊断领域的隐私保护新策略
腾讯技术创作特训营S9
你是否曾想过,在保护患者隐私的同时,多家医疗机构能否共同提升医疗诊断模型的准确性?联邦学习(Federated Learning),这一新兴的机器学习技术,正悄然改变着这一切。
zhangjiqun
2024-10-01
290
0
算力共享系统中数据平面和控制平面
腾讯技术创作特训营S9
在算力共享系统中,数据平面和控制平面是两个关键组成部分,它们各自承担着不同的角色和功能。以下是对这两个平面的详细说明,并通过一个算力共享系统的例子来进一步阐述。
zhangjiqun
2024-09-29
371
0
揭秘大模型背后的神秘力量:算力、数据与算法的“黄金三角”
腾讯技术创作特训营S9
在人工智能的浩瀚星空中,大模型犹如一颗璀璨的新星,引领着技术的前沿。但你是否好奇,是什么让这颗新星如此耀眼?今天,就让我们一起揭开大模型背后的神秘面纱,探索那支撑其辉煌成就的“黄金三角”——算力、数据与高性能算法。
zhangjiqun
2024-09-27
922
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档