作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向...
为了将损失建模为训练 token 数量 D 和模型参数 N 的函数,他们还拟合了以下参数函数,得到了 scaling 指数 α = 0.301 和 β = 0....
刚刚,智谱推出最新的 AutoGLM 沉思模型,不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator)。并且,这个会“边想边干...
这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。
刚刚,谷歌研究员Zachary Charles宣布:「在越来越大的模型上,分布式训练取得重大突破」。
ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。
本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow...
众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
它不仅将长达18个月的建设周期,大幅缩短至4个月,甚至还实现了高效节能、弹性扩容、按需定制、便捷运维等技术创新。
这意味着,随着现有方法(大模型scaling)与新方法(强化学习驱动的测试时计算等)的结合,2025年的AI进展相对2024年会进一步加速。
最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。
也就是说,使用GPT-4o来预测网站上操作的结果,可以提供强大的性能,同时还能提高安全性和效率。
最终推演出了一套针对于低比特量化的 scaling laws。通过这套 scaling laws,可以预测出当 7B, 70B 以及 405B 的模型在训练规模...
在此之前,也有不少研究者进行了类似研究,分析了达到期望泛化误差所需的样本复杂度,但论文中提到,这些结果似乎不足以准确预测实际应用中的误差 scaling 规律。...
预训练 scaling law 表明,计算最佳预训练精度通常独立于计算预算。然而,令人惊讶的是,如果模型大小受到限制,这种独立性就不再成立,在这种情况下,计算最...
这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling La...
还记得 ChatGPT 为什么能横空出世吗?答案就是 scaling laws!现在,清华团队首次证明:这个法则在机器人领域同样适用。事实上,真正的 scali...
其实,研究精度scaling具有挑战性,因为scaling law的研究通常旨在放弃细节性的实现细节,追求普遍的函数形式,而量化研究通常相反,专注于细节:如何进...
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。