首页
学习
活动
专区
圈层
工具
发布

#数学

均匀扩散语言模型:第三条大模型路线,第一次被真正训练到了 7B

唐国梁Tommy

我们已经习惯了大模型一个字一个字往外蹦。从 GPT 到 Llama,主流大语言模型走的都是同一条路——自回归(autoregressive):从左到右,一次只决...

2500

当AGI不再是终点: DeepMind画出了通往"超级智能"的四条路

唐国梁Tommy

这个被称作 AGI(通用人工智能)的目标,已经从科幻话题,变成了全球最大几家 AI 机构口中"未来十年内"的具体路线图。

1910

微软多模态Phi-4-reasoning-vision-15B:用200B token训出来的多模态推理模型,凭什么敢和1T+对打?

唐国梁Tommy

这篇报告解决的问题是:如何在显著更少的训练数据和推理计算开销下,构建一个在数学科学推理与GUI操控上竞争力强的多模态模型。核心贡献是系统化数据质量工程 + 动态...

1500

微软“小钢炮”rStar2-Agent,三大创新如何让小模型拥有超凡推理力

唐国梁Tommy

在AI圈,我们似乎已经习惯了“大力出奇迹”的叙事:更大的参数量、更海量的数据、更强的算力,似乎是通往更强智能的唯一路径。然而,微软最新发布的 rStar2-Ag...

1800

“通才”的胜利:为何混合训练(数学+代码+谜题)才是打造最强大模型的关键?

唐国梁Tommy

今天,我们要深入探讨一个在AI领域越来越重要的话题:大语言模型(LLM)的多领域推理能力。如今的LLM在单一任务上,如数学解题或代码生成,已经表现得相当出色。但...

1600

告别RL探索困境:「强化学习教师」重塑大模型推理(Reasoning)训练

唐国梁Tommy

近期,将强化学习(RL)应用于语言模型(LM)以提升其复杂推理能力,已经成为AI领域最前沿、最激动人心的方向之一。从DeepMind的AlphaCode到Dee...

2500

深度解读Ring-lite:C3PO如何攻克强化学习不稳定性难题?

唐国梁Tommy

让大语言模型(LLM)像人类一样思考,解决复杂的数学和编程问题,是AI领域的前沿目标。强化学习(RL)是实现这一目标的主流技术,但它有个致命弱点:训练过程极不稳...

1600

RLVR:通过精选的单个样本实现大型语言模型推理的显著提升

唐国梁Tommy

大语言模型(LLMs)在推理能力上取得了显著进展。从数学问题到逻辑推理,它们的表现越来越令人惊艳。我们看到了像OpenAI-o1、DeepSeek-R1 和 K...

2000

为什么Kriging 与高斯过程回归出自同一数学框架,但实际效果却差很远

deephub

做过地质统计学、储层建模或空间机器学习的人,大概都面对过这个选择:Kriging(经典地质统计学的主力工具),还是高斯过程回归(Gaussian Process...

2810

从股票割肉到早高峰堵车:用少众博弈(Minority Game)看懂复杂系统的“反直觉”演化(附Python仿真)

math chen

听说某只股票利好,你赶紧冲进去,结果刚买完就成了“接盘侠”,只有少数果断割肉或空仓的人赚了钱?

3600

超图族上的变换

CreateAMind

我们提出了一种关于有限超图族上基于函数的超图变换的新的一般理论。基于函数的超图变换形式化了以一致的方式对来自一个族的超图进行结构修改的操作。这些变换的数学形式便...

3510

北京智源等提出DyCo-RL:动态跨模态协同学习让多模态大模型“看得准也想得清”

Amusi

随着多模态大模型(MLLMs)在图文理解、数学解题、几何推理等任务上取得长足进步,可验证奖励的强化学习(RLVR)已成为提升其视觉推理能力的主流范式。然而,现有...

4310

2026-06-19:阶数数字排列。用go语言,给定一个整数 n,判断能否把 n 的各位数字重新排列(允许使用原来的顺序,也允许换成任意顺序),

福大大架构师每日一题

2026-06-19:阶数数字排列。用go语言,给定一个整数 n,判断能否把 n 的各位数字重新排列(允许使用原来的顺序,也允许换成任意顺序),得到某个有效整数...

2800

能否从AI生成式蛋白扩散模型中提取出类似物理学的能量函数?

DrugIntel

本文的核心问题是:扩散模型(diffusion model)在生成蛋白质结构 / 蛋白质对接构型时,是否隐式学到了一个类似物理自由能的函数? 作者从统计热力学出...

6110

AI能写代码了,高考计算机专业还能报吗?

灬沙师弟

6300

为什么计算机计算小数时会出错?

Lihua奏

这也提醒我们,在看待浮点数的时候,不能把它当成数学里的实数,而要把它当成一种“有限精度的近似表示”。

6900

码途周记#003:心力、愿力、定力

码途

乔老师一直讲:要五年上一次台阶,强者去哪里都是强者,弱者在哪里都只知道抱怨,心力、愿力很重要。

9110

GPT-5.5 Instant上线:幻觉减少52.5%,告别废话

用户11563501

OpenAI今日完成ChatGPT默认模型的静默升级,GPT-5.5 Instant全面替换GPT-5.3 Instant。这个被数亿用户当作「日常档」的模型,...

10010

登陆nature!大脑处理语言的时间结构与LLM惊人相似

用户11563501

传统语言学认为大脑处理语言靠的是符号和规则,就像查字典一样。但LLM用的是完全不同的方法:把词语变成数字向量,然后通过一层层复杂的数学变换来"理解"语言。这听起...

7610

Hugging Face 推出 GOLD:让不同模型家族也能做知识蒸馏

用户11563501

数学任务跨家族蒸馏:用 Qwen 教师模型指导 LLaMA 学生模型,在数学任务上表现良好,甚至超过了 GRPO 方法。

8710
领券