腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
周末程序猿
专栏成员
举报
40
文章
11607
阅读量
13
订阅数
订阅专栏
申请加入专栏
全部文章(40)
模型(21)
机器学习(16)
数据(14)
chatgpt(13)
函数(8)
开发(8)
开源(5)
深度学习(4)
变量(4)
架构(4)
存储(3)
gpt(3)
self(3)
服务(3)
搜索(3)
性能(3)
优化(3)
分布式(2)
model(2)
编程语言(2)
遍历(2)
翻译(2)
高性能(2)
接口(2)
框架(2)
索引(2)
统计(2)
系统(2)
原理(2)
DeepSeek(2)
负载均衡(1)
数据库(1)
搜索引擎(1)
linux(1)
nginx(1)
神经网络(1)
渲染(1)
游戏(1)
爬虫(1)
卷积神经网络(1)
大数据(1)
agent(1)
data(1)
gpu(1)
istio(1)
openai(1)
return(1)
search(1)
token(1)
torch(1)
编程(1)
编码(1)
部署(1)
测试(1)
程序(1)
磁盘(1)
代理(1)
递归(1)
地图(1)
队列(1)
分布式系统(1)
高德地图(1)
工程师(1)
工具(1)
公众号(1)
工作流(1)
管理(1)
论文(1)
内存(1)
内核(1)
配置(1)
日志(1)
入门(1)
实践(1)
视频(1)
数学(1)
数组(1)
算法(1)
调试(1)
网络(1)
网络编程(1)
语法(1)
云原生(1)
字符串(1)
数据预处理(1)
LoRa(1)
搜索文章
搜索
搜索
关闭
机器学习|从0开发大模型之复现DeepSeek的aha moment
开发
模型
DeepSeek
机器学习
model
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。
用户1904552
2025-02-27
76
0
机器学习|从0开发大模型之DeepSeek的GRPO
DeepSeek
机器学习
函数
开发
模型
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份:https://huggingface.co/papers/2402.03300,以下是该论文的摘要原文:
用户1904552
2025-02-27
78
0
技术总结|十分钟了解GPU
渲染
存储
游戏
gpu
架构
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
用户1904552
2025-02-27
70
0
机器学习|从0开发大模型-译llama3-from-scratch
token
torch
开发
模型
机器学习
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原文:https://github.com/naklecha/llama3-from-scratch 其中meta-llama/Meta-Llama-3-8B文件地址:https://huggingface.co/meta-llama/Meta-Llama-3-8B/tree/main/original
用户1904552
2025-02-27
89
0
ChatGPT|OpenAI Days12内容介绍(1-3)
视频
数据
chatgpt
openai
模型
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。
用户1904552
2025-02-27
101
0
机器学习|从0开发大模型之注意力机制
模型
机器学习
深度学习
函数
开发
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像深刻,可能会反复读某一段文字,但是对于其他不敢兴趣的内容会忽略,说明人脑在处理信号的时候是一定会划权重,而注意力机制正是模仿大脑这种核心的功能。
用户1904552
2025-02-27
97
0
机器学习|从0开始大模型之位置编码
模型
数据
机器学习
编码
函数
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型中的位置编码》。
用户1904552
2025-02-27
107
0
机器学习|从0开始大模型之模型DPO训练
数据
优化
机器学习
论文
模型
Rafailov等人在2023年发表了一篇论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》,该论文提出了一种新的训练方法,称为直接偏好优化(DPO),该论文介绍:
用户1904552
2025-02-27
168
0
机器学习|从0开始大模型之模型LoRA训练
model
模型
数据
LoRa
机器学习
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。
用户1904552
2025-02-27
267
0
机器学习|从0开发大模型之SFT训练
开发
模型
数据
机器学习
翻译
继续写《从0开发大模型》系列文章,上一章主要数据数据预训练,让模型能学到句子接龙和部分语言理解能力,获取基座版本,但是用基座版本的模型的对话能力太弱了,需要用大量的数据微调,本文主要介绍如何用SFT训练模型。
用户1904552
2025-02-27
124
0
机器学习|从0开发大模型之模型预训练
开发
模型
优化
机器学习
self
继续写《从0开发大模型》系列文章,本文主要介绍预训练过程。 预训练是目的是让模型学习知识,需要将预处理的数据(《机器学习|从0开发大模型之数据预处理》)中生成的 pretrain_data.bin 文件的上下文全部学习到,那预训练怎么做呢?
用户1904552
2025-02-27
110
0
技术总结|十分钟了解分布式系统中生成唯一ID
分布式
分布式系统
服务
架构
系统
分布式系统中生成唯一ID在后台开发是经常遇到的架构设计,当然方案有很多,比如通过redis或者数据库实现自增。 但是如果依赖redis或者数据库,会导致单点问题,在架构上反而需要考虑点更多,那怎么解决呢?
用户1904552
2025-02-27
107
0
技术总结|十分钟了解地图如何实现红绿灯读秒?
数据
统计
原理
地图
高德地图
十一期间开车到五六线线城市,发现高德地图的红绿灯读秒功能竟然依旧比较精准,之前在一二线城市了解地图的读秒是使用政府交通部门的数据,那五六线城市的数据应该是没那么全,那怎么实现读秒的呢?于是找到相关高德地图专利,了解了一下原理。
用户1904552
2025-02-27
124
0
技术总结|十分钟了解UV统计算法HyperLogLog
存储
大数据
数组
算法
统计
考虑到上述问题的扩展性,除了统计APP每日的独立用户登录数,还需要统计打开每个页面的独立用户数。
用户1904552
2025-02-27
92
0
ChatGPT|公众号接入AIAgent
编程语言
翻译
公众号
chatgpt
编程
之前已经考虑将公众号加入智能体,但是由于API接口返回太慢了,于是重新实现了一个页面,就变成这样:
用户1904552
2025-02-27
79
0
机器学习|从0开发大模型之数据预处理
机器学习
开发
模型
数据
数据预处理
前面写了一篇文章《ChatGPT|大语言模型训练有哪些开源数据集? 》(https://mp.weixin.qq.com/s?__biz=MzA3Njk4MjkyNw==&mid=2247485643&idx=1&sn=a109dea3f3f9ac1acaaad940b6a16aaa&chksm=9f59b72ba82e3e3d736a77da3ebb5bea152a0516233fbd496d7419fe3d07231905f613215bd3&token=679209878&lang=zh_CN#rd),文中列举了一些高质量的数据集合。
用户1904552
2025-02-27
90
0
机器学习|从0开发大模型之Tokenizer训练
机器学习
测试
开发
模型
数据
继续写《从0开发大模型》系列文章,本文主要介绍从头快速训练一个Tokenizer。
用户1904552
2025-02-27
112
0
机器学习|使用ONNX部署模型
部署
工作流
框架
模型
机器学习
在机器学习中,通常训练完成了模型该如何部署?如果直接将训练环境部署在线上,会和训练平台或者框架相关,所以通常转换为ONNX格式。
用户1904552
2025-02-27
116
0
机器学习|深度学习如何自动微分
机器学习
深度学习
data
self
变量
在深度学习中,求导几乎是所有优化算法的关键步骤,但是对于单个值的求导比较简单,但是如果对于模型训练过程中每次都需要手动求导就很麻烦,因此深度学习框架都提供了自动导数(自动微分)。
用户1904552
2025-02-27
55
0
机器学习|深度学习卷积模型
卷积神经网络
模型
数据
机器学习
深度学习
在早期的图像分类中,通常流程是先人工提取特征,然后用对应的机器学习算法对特征进行分类,分类的准确率一般依赖特征选取的方法,甚至依赖经验主义。 Yann LeCun最早提出将卷积神经网络应用到图像识别领域的,其主要逻辑是使用卷积神经网络提取图像特征,并对图像所属类别进行预测,通过训练数据不断调整网络参数,最终形成一套能自动提取图像特征并对这些特征进行分类的网络,如图:
用户1904552
2025-02-27
54
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档