首页
学习
活动
专区
圈层
工具
发布

#scaling

深入解析强化学习中的混合精度训练:FP16累加误差与Loss Scaling补偿机制

用户6320865

在深度学习领域,混合精度训练已成为加速模型训练的核心技术之一。这项技术通过巧妙结合FP16(半精度浮点数)和FP32(单精度浮点数)两种数据格式,在保证模型精度...

7010

简单几步解决神器Burp Suite 光标错位问题

逍遥子大表哥

其问题归根在于缩放位置上面,接下来我们一起解决此问题。 首先点击Setting->User interface->Display->Scaling缩放设置为2(...

26810

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

机器之心

在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。

11610

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

新智元

【新智元导读】最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量...

8300

原来Scaling Law还能被优化?Meta这招省token又提效

机器之心

此外,他们的实验还表明,2-simplicial Transformer 相对于 Transformer 具有更有利的参数数量 scaling 指数。这表明,与...

8410

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

新智元

后训练拓展(Post-training scaling)利用微调(fine-tuning)、剪枝(pruning)、蒸馏(distillation)和强化学习等...

10810

复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕

机器之心

2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。

16910

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

机器之心

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高...

12100

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

机器之心

本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦...

27810

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器之心

如果你把这个方法放到 scaling 图上,你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料,这比用化石燃料更糟糕。而且,一个机器人每天只有...

15210

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

新智元

一种常用方法是把单独预训练好的模型组合起来,比如把训练好的视觉编码器连接到LLM的输入层,再进行多模态训练。

17910

AI长身体,直接做实验!自主通用科学家,科研界的Scaling Law来了

新智元

你能想象未来的诺贝尔奖颁奖典礼上,站在领奖台上的不是人类科学家,而是一个机器人吗?

20910

后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述

机器之心

为了解决这些难题,强化学习(RL)被引入进来;这能让模型使用动态的反馈和优化序列决策来提升适应能力。此外,包括低秩适应(LoRA)、适配器和检索增强生成(RAG...

18100

72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws

机器之心

作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向...

19200

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

机器之心

为了将损失建模为训练 token 数量 D 和模型参数 N 的函数,他们还拟合了以下参数函数,得到了 scaling 指数 α = 0.301 和 β = 0....

14810

比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law

深度学习与Python

刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干...

19610

刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

机器之心

这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

15410

谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路

新智元

刚刚,谷歌研究员Zachary Charles宣布:「在越来越大的模型上,分布式训练取得重大突破」。

11400

Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

新智元

ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。

12310

大模型扩展新维度:Scaling Down、Scaling Out

机器之心

本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow...

19310
领券