发布

腾讯云TVP

专栏成员
452
文章
641111
阅读量
425
订阅数
The Three-Stage Scaling Laws Large Language Models
Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.
立委
2025-03-03
320
大模型三阶段的 scaling laws 接力赛
黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。
立委
2025-03-03
400
深度学习的局限性研究综述
深度学习模型本质上是高维概率密度估计器,它的核心目标是通过参数θ找到条件概率分布P(y|x;θ)的最佳近似。模型通过学习大量的训练数据,试图捕捉数据中的大大小小的统计规律,并将其泛化到未知数据。然而,这种统计学习范式决定了一个根本性问题:模型学习的是P(y|x)而非P(x→y),即统计相关性而非因果关系。
立委
2025-03-03
470
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
立委
2025-02-28
740
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025-02-28
2000
关注专栏作者,随时接收最新技术干货
TVP官方团队
腾讯 | 产品经理
eygle
云和恩墨信息技术有限公司 | 首席架构师
朱峰
上海斐鸿网络科技有限公司 | 技术经理
RPA 赛道与大模型Co-pilots早期创业者的困局
- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。 - LLM Agent:直接理解人类意图("把邮件里的发票信息录入系统"),自主拆解任务链条,动态调整执行路径。 - 典型案例:ChatGPT 插件系统已能调用 API 完成订机票、查数据等操作,而传统 RPA 实现同等功能需低代码脚本。
立委
2025-02-27
680
DeepSeek 技术跃迁:AI 应用的下一站在哪?
2025 年,DeepSeek 以颠覆性技术突破重构全球 AI 竞争格局,其创新的多模态架构与超大规模推理能力,不仅激起了 AGI 技术的进化浪花,更在产业实践的深水区掀起了一场智能化落地的应用热潮。
TVP官方团队
2025-02-27
1550
Linguists Should Find Self-Attention Intuitively Familiar
For linguists bewildered by large language models (LLMs), the confusion often stems from terminology and implementation details obscuring shared foundational principles. Let’s cut through the noise and focus on self-attention — the beating heart of the Transformer architecture.
立委
2025-02-25
500
语言学家应该很容易理解自注意力机制
如果语言学家以前觉得大模型烧脑和不解,那是因为窗户纸没有捅破,存在不同体系下的术语与机制细节的理解障碍,但底层逻辑并不乏不少共同的东西。本篇聚焦在大模型Transformer架构中的核心注意力机制的理解。
立委
2025-02-24
1130
符号主义被打入冷宫太久了,难道神经是AI的终结者吗?
虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
立委
2025-02-24
590
立委科普:如何理解自注意力机制中的QKV分工?
为了学习序列上下文的依赖关系,为什么序列中的每一个 token 都要派生出三个分工角色:Q(Query),K(Key),V(Value)?
立委
2025-02-21
1960
Transformer 和注意力机制简介
基础大模型通过原始大数据的“自监督学习”(self-srupervised learning),利用多层神经网络,获得数据相关的知识。自监督学习是一种特别的监督学习,它利用“掩码”获得监督信号。我们知道监督学习的训练数据是标注了输出目标作为监督信号的学习,但自监督无需人类标注,而是在数据中遮盖了部分数据点,让系统学习预测它(“填空”或“接龙”),以被遮盖的数据点作为标准答案和监督信号。主流的GPT大模型的掩码就是遮盖住下一个词,让系统仅仅根据上文来预测它(叫 next token prediction),这是当前生成式AI的主流模型。
立委
2025-02-21
1490
DeepSeek重新定义未来应用场景,如何拿到新船票?
2025 年开年,技术圈迎来了“AI 领域的史普尼克时刻”。当全球 AI 竞赛进入深水区,DeepSeek 凭借其创新的架构设计与开源生态的双向突破,不仅掀起新一轮 AI 创新热潮,更引发业内对应用场景的广泛探索,国民级应用微信接入 R1 上线「AI 搜索」,各大厂商纷纷将 DeepSeek 嵌入业务。
TVP官方团队
2025-02-20
1350
True Story Behind DeepSeek: Learning to Think Slowly Without Human Supervision
InfoQ: "DeepSeek adheres to a pure reinforcement learning approach, but the industry often refers to RL as 'alchemy' - how did they make this process controllable and accessible? What's innovative about their reasoning paradigm?"
立委
2025-02-16
530
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
— Reflections on LLM Scaling Laws and DeepSeek's R1
立委
2025-02-14
430
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism
A detailed analysis of how DeepSeek R1's inference mechanism works in production, and how it differs from training-time reinforcement learning.
立委
2025-02-14
660
DeepSeek 大爆发,带来了哪些新希望?
2025 开年,DeepSeek 率先引爆技术圈,一篇篇解读文章与一个个充满戏剧性的故事,不断地挑动着每一个关注国内大模型发展的技术人。但与之相伴的,众多质疑也纷至沓来。DeepSeek 的技术与意义被不断分析、重构,被反复赋予新的解读。
TVP官方团队
2025-02-14
1590
高可用架构:你努力打地基,别人只看高楼
7月,全球多地的Windows操作系统出现蓝屏现象,导致全球航空公司、银行、医院等多个行业的业务系统受到影响。12月,OpenAI的Kubernetes集群发生故障,导致ChatGPT、API等服务出现严重性能下降或完全不可用。
TVP官方团队
2025-02-14
410
做ToB,太难了!
有人说,我们现在正处于一个乌卡时代(VUCA):易变性(Volatility)、不确定性(Uncertainty)、复杂性(Complexity)和模糊性(Ambiguity)充斥其间,没有人能对未来做出精准的预言,也没有人能找到永远赚钱的路径。
TVP官方团队
2025-02-14
630
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
立委
2025-02-14
1400
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档