首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#scaling

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

机器之心

本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦...

10610

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器之心

如果你把这个方法放到 scaling 图上,你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料,这比用化石燃料更糟糕。而且,一个机器人每天只有...

12310

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

新智元

一种常用方法是把单独预训练好的模型组合起来,比如把训练好的视觉编码器连接到LLM的输入层,再进行多模态训练。

12510

AI长身体,直接做实验!自主通用科学家,科研界的Scaling Law来了

新智元

你能想象未来的诺贝尔奖颁奖典礼上,站在领奖台上的不是人类科学家,而是一个机器人吗?

12610

后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述

机器之心

为了解决这些难题,强化学习(RL)被引入进来;这能让模型使用动态的反馈和优化序列决策来提升适应能力。此外,包括低秩适应(LoRA)、适配器和检索增强生成(RAG...

10200

72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws

机器之心

作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向...

6500

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

机器之心

为了将损失建模为训练 token 数量 D 和模型参数 N 的函数,他们还拟合了以下参数函数,得到了 scaling 指数 α = 0.301 和 β = 0....

8710

比 R1 快 8 倍、价格仅 3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有 Scaling Law

深度学习与Python

刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干...

14510

刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

机器之心

这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

11610

谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路

新智元

刚刚,谷歌研究员Zachary Charles宣布:「在越来越大的模型上,分布式训练取得重大突破」。

6300

Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

新智元

ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。

8810

大模型扩展新维度:Scaling Down、Scaling Out

机器之心

本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow...

13110

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

机器之心

众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。

9100

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

新智元

随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。

11510

120天复制马斯克速度!119块「乐高」搭出算力工厂,破局Scaling Law算力差

新智元

它不仅将长达18个月的建设周期,大幅缩短至4个月,甚至还实现了高效节能、弹性扩容、按需定制、便捷运维等技术创新。

4100

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

新智元

这意味着,随着现有方法(大模型scaling)与新方法(强化学习驱动的测试时计算等)的结合,2025年的AI进展相对2024年会进一步加速。

5100

OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

新智元

最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。

3700

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

新智元

也就是说,使用GPT-4o来预测网站上操作的结果,可以提供强大的性能,同时还能提高安全性和效率。

9910

低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws

机器之心

最终推演出了一套针对于低比特量化的 scaling laws。通过这套 scaling laws,可以预测出当 7B, 70B 以及 405B 的模型在训练规模...

9710

遗憾不?原来百度2017年就研究过Scaling Law,连Anthropic CEO灵感都来自百度

机器之心

在此之前,也有不少研究者进行了类似研究,分析了达到期望泛化误差所需的样本复杂度,但论文中提到,这些结果似乎不足以准确预测实际应用中的误差 scaling 规律。...

11200
领券