腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
deepseek
追踪deepseek
专栏成员
举报
15
文章
5335
阅读量
13
订阅数
订阅专栏
申请加入专栏
全部文章(15)
LLM(6)
DeepSeek(6)
大模型知识引擎(5)
自动推理(3)
强化学习(2)
深度学习(1)
人工智能(1)
scaling(1)
搜索文章
搜索
搜索
关闭
DeepSeek 风暴下看看它的论文
DeepSeek
R1 论文读下来,原来被 OpenAI 从 q* 开始到 o 系列,搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程,一下子就变得清晰简单多了。
立委
2025-02-03
3.5K
0
置顶
The Three-Stage Scaling Laws Large Language Models
LLM
Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.
立委
2025-03-03
33
0
大模型三阶段的 scaling laws 接力赛
大模型知识引擎
LLM
黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。
立委
2025-03-03
49
0
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
LLM
大模型知识引擎
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
立委
2025-02-28
74
0
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
大模型知识引擎
LLM
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025-02-28
200
0
RPA 赛道与大模型Co-pilots早期创业者的困局
大模型知识引擎
- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。 - LLM Agent:直接理解人类意图("把邮件里的发票信息录入系统"),自主拆解任务链条,动态调整执行路径。 - 典型案例:ChatGPT 插件系统已能调用 API 完成订机票、查数据等操作,而传统 RPA 实现同等功能需低代码脚本。
立委
2025-02-27
68
0
符号主义被打入冷宫太久了,难道神经是AI的终结者吗?
人工智能
深度学习
虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
立委
2025-02-24
59
0
True Story Behind DeepSeek: Learning to Think Slowly Without Human Supervision
DeepSeek
InfoQ: "DeepSeek adheres to a pure reinforcement learning approach, but the industry often refers to RL as 'alchemy' - how did they make this process controllable and accessible? What's innovative about their reasoning paradigm?"
立委
2025-02-16
53
0
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
DeepSeek
— Reflections on LLM Scaling Laws and DeepSeek's R1
立委
2025-02-14
43
0
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism
DeepSeek
A detailed analysis of how DeepSeek R1's inference mechanism works in production, and how it differs from training-time reinforcement learning.
立委
2025-02-14
66
0
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
scaling
自动推理
DeepSeek
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
立委
2025-02-14
140
0
DeepSeek 笔记:R1 部署阶段的推理机制
强化学习
自动推理
DeepSeek
- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT+Answers),但仅选择其中一条输出。 - 技术实现:通过调整解码策略(如束搜索宽度 `beam_width`),模型在生成过程中维护多个候选序列(即多条路径),最终选择综合评分最高的路径。 - 用户感知:用户仅看到最终输出,但模型内部进行了多路径探索与筛选。 - 效率权衡:若设置 `beam_width=1`(贪心搜索),则退化为单路径生成,响应速度最快;增大 `beam_width` 可提升输出质量,但增加计算延迟。
立委
2025-02-14
124
0
从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
LLM
主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。立委,您好!
立委
2025-02-10
206
0
推理强化模型中思维链的本质
强化学习
LLM
DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。
立委
2025-02-08
546
0
推理强化学习是端到端的监督,推理过程的非监督
自动推理
大模型知识引擎
DeepSeek R1 的数学和代码数据究竟是有监督还是无监督?是人造数据还是再生数据?
立委
2025-02-03
156
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档