暂无搜索历史
Mr. Huang's background features three S-curves, illustrating the scaling relay r...
黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。
深度学习模型本质上是高维概率密度估计器,它的核心目标是通过参数θ找到条件概率分布P(y|x;θ)的最佳近似。模型通过学习大量的训练数据,试图捕捉数据中的大大小小...
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈...
- Traditional RPA: Engineers script step-by-step logic (e.g., UiPath’s drag-and-...
- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。 - LLM Agen...
For linguists bewildered by large language models (LLMs), the confusion often st...
如果语言学家以前觉得大模型烧脑和不解,那是因为窗户纸没有捅破,存在不同体系下的术语与机制细节的理解障碍,但底层逻辑并不乏不少共同的东西。本篇聚焦在大模型Tran...
虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
为了学习序列上下文的依赖关系,为什么序列中的每一个 token 都要派生出三个分工角色:Q(Query),K(Key),V(Value)?
基础大模型通过原始大数据的“自监督学习”(self-srupervised learning),利用多层神经网络,获得数据相关的知识。自监督学习是一种特别的监督...
InfoQ: "DeepSeek adheres to a pure reinforcement learning approach, but the indu...
— Reflections on LLM Scaling Laws and DeepSeek's R1
A detailed analysis of how DeepSeek R1's inference mechanism works in production...
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT+Answers),但仅选择其中一条输出。 - 技术实现:通过调整解码策略(如束搜索宽...
主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3...
暂未填写公司和职称
暂未填写技能专长