首页
学习
活动
专区
圈层
工具
发布

#scaling

继Ilya之后,KAN一作再发檄文:Scaling终将撞铁壁!

新智元

继Ilya之后,柯尔莫哥洛夫-阿诺德网络KAN一作向Scaling Law发出最新檄文!

7610

字节Seed团队: Scaling线性注意力首个超越AlphaFold3

DrugOne

近年来,生物分子结构预测已经成为构建生命科学基础模型的重要基石。从 AlphaFold2 到 AlphaFold3,深度学习模型不断刷新结构预测的精度上限。然而...

12010

Ilya警告、LeCun冷嘲、奥特曼沉默:Scaling Law时代还能走多远?

新智元

从ChatGPT到惊艳世界的DeepSeek,再到2025年底的Gemini 3、GPT-5.2等,所有这些顶级模型背后都是这个幽灵。

14010

LSTM之父劝不动Altman,但Transformer“亲爹”已跑路:一个赛道里卷没意思,无脑scaling也不行

深度学习与Python

我不认为游戏已经结束了,我不相信这就是最终架构,只要无脑 scaling 就行。我相信迟早会有新的突破出现,到时候回头看,大家又会发现:“哎呀,我们要早点醒悟就...

13910

Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?

深度学习与Python

当大模型从通用技术探索深入产业场景,搜索、广告与推荐系统作为连接用户需求与业务价值的核心链路,正迎来全链路智能重构。那么,生成式推荐真正落地后的关键挑战是什么?...

16910

Scaling时代终结了,Ilya Sutskever刚刚宣布

机器之心

当这句话出自 Ilya Sutskever 之口时,整个 AI 社区都无法忽视。作为 Safe Superintelligence Inc. 的创始人,他在最新...

34110

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

机器之心

在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“...

14710

宇宙尺度压缩:Scaling law的边界,柏拉图表征收敛于物质和信息交汇,解决P与NP问题,Simulation假说

深度学习与Python

在语言和专用科学多任务数据集上的预训练能够平滑收敛,这表明大语言模型(LLMs)的 scaling law 可以超越语言范畴,延伸至物理世界。那么 Scalin...

15110

133_云端扩展:Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践

安全风信子

在大语言模型(LLM)部署的时代,如何高效地管理计算资源、应对动态负载并优化成本,成为了每个AI工程师必须面对的挑战。随着LLM应用的普及,用户请求模式变得日益...

25610

DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?

机器之心

这几天,一篇关于向量嵌入(Vector Embeddings)局限性的论文在 AlphaXiv 上爆火,热度飙升到了近 9000。

27110

深入解析强化学习中的混合精度训练:FP16累加误差与Loss Scaling补偿机制

用户6320865

在深度学习领域,混合精度训练已成为加速模型训练的核心技术之一。这项技术通过巧妙结合FP16(半精度浮点数)和FP32(单精度浮点数)两种数据格式,在保证模型精度...

72210

简单几步解决神器Burp Suite 光标错位问题

逍遥子大表哥

其问题归根在于缩放位置上面,接下来我们一起解决此问题。 首先点击Setting->User interface->Display->Scaling缩放设置为2(...

92310

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

机器之心

在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。

23310

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

新智元

【新智元导读】最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量...

17500

原来Scaling Law还能被优化?Meta这招省token又提效

机器之心

此外,他们的实验还表明,2-simplicial Transformer 相对于 Transformer 具有更有利的参数数量 scaling 指数。这表明,与...

16310

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

新智元

后训练拓展(Post-training scaling)利用微调(fine-tuning)、剪枝(pruning)、蒸馏(distillation)和强化学习等...

26210

复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕

机器之心

2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。

23910

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

机器之心

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高...

22300

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

机器之心

本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦...

49810

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器之心

如果你把这个方法放到 scaling 图上,你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料,这比用化石燃料更糟糕。而且,一个机器人每天只有...

29610
领券