首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#scaling

大模型扩展新维度:Scaling Down、Scaling Out

机器之心

本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow...

9010

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

机器之心

众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。

7600

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

新智元

随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。

7810

120天复制马斯克速度!119块「乐高」搭出算力工厂,破局Scaling Law算力差

新智元

它不仅将长达18个月的建设周期,大幅缩短至4个月,甚至还实现了高效节能、弹性扩容、按需定制、便捷运维等技术创新。

3100

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

新智元

这意味着,随着现有方法(大模型scaling)与新方法(强化学习驱动的测试时计算等)的结合,2025年的AI进展相对2024年会进一步加速。

4400

OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

新智元

最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。

2800

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

新智元

也就是说,使用GPT-4o来预测网站上操作的结果,可以提供强大的性能,同时还能提高安全性和效率。

8010

低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws

机器之心

最终推演出了一套针对于低比特量化的 scaling laws。通过这套 scaling laws,可以预测出当 7B, 70B 以及 405B 的模型在训练规模...

7310

遗憾不?原来百度2017年就研究过Scaling Law,连Anthropic CEO灵感都来自百度

机器之心

在此之前,也有不少研究者进行了类似研究,分析了达到期望泛化误差所需的样本复杂度,但论文中提到,这些结果似乎不足以准确预测实际应用中的误差 scaling 规律。...

7600

Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

机器之心

预训练 scaling law 表明,计算最佳预训练精度通常独立于计算预算。然而,令人惊讶的是,如果模型大小受到限制,这种独立性就不再成立,在这种情况下,计算最...

4900

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

机器之心

这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling La...

8210

机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws

机器之心

还记得 ChatGPT 为什么能横空出世吗?答案就是 scaling laws!现在,清华团队首次证明:这个法则在机器人领域同样适用。事实上,真正的 scali...

9710

Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈

新智元

其实,研究精度scaling具有挑战性,因为scaling law的研究通常旨在放弃细节性的实现细节,追求普遍的函数形式,而量化研究通常相反,专注于细节:如何进...

5300

斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破

新智元

利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。

9610

Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

新智元

Scaling Law大家都说得够多了。但有一个问题,却被每个人都忽略了——我们说scaling的时候,究竟在scaling什么?

9110

清华团队破解具身智能Scaling Law,GPT时刻在即!宁德时代联创终于出手

新智元

根据工商信息显示,本轮融资由柏睿资本独家投资。至此,千寻智能已经在半年多时间里获得了三次大额融资,一跃成为具身智能领域明星公司之一。

6010

DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?

立委

另外,说推理模型这一波潮流是范式转变,开启了新的 RL/Test-time scaling law,总觉得有一点太言之凿凿了。直觉上,推理模型的增长曲线与此前的...

14010

探索 Scaling Law 的边界与 AI 芯片的新竞争格局

深度学习与Python

在 AI 的快速发展中,Scaling Law 的瓶颈带来了新的竞争态势。AI 应用,尤其是深度学习、大规模并行计算、推理和训练等领域,要求计算能力以非线性、指...

7110

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

新智元

近日,来自斯坦福大学、华盛顿大学、Ai2等机构的研究人员发表了一篇题为「s1: Simple test-time scaling」的论文,回答了上述问题。

9900

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

机器之心

对于 LLM,推理时 scaling 是有效的!这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner m...

10000
领券