发布

机器之心

专栏成员
9268
文章
7181427
阅读量
286
订阅数
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。
机器之心
2025-02-07
280
冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂
本周三,该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。
机器之心
2025-02-06
2500
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存
以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。然而,庞大的视觉 token(vision token)量显著增加了 LMMs 的计算复杂度和推理延迟,尤其在高分辨率图像或视频处理的场景下,效率问题愈加突出。因此,提高多模态大模型的计算效率成为实现低延时实时交互的核心挑战之一。
机器之心
2025-02-06
690
AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn
机器之心
2025-02-06
920
自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言
面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
机器之心
2025-02-06
530
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
机器之心
2025-02-06
1250
70年AI研究得出了《苦涩的教训》:为什么说AI创业也在重复其中的错误?
Scaling Laws 是否失灵,这个话题从 2024 年年尾一直讨论至今,也没有定论。
机器之心
2025-02-06
310
ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2
是否还在担心大规模场景训练和压缩耗时太长、显存开销太大?是否还在苦恼重建出的建筑物和道路表面破碎不堪?是否还在困扰如何定量衡量大规模场景几何重建的精确程度?
机器之心
2025-02-06
600
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观
AI 圈的头条被 DeepSeek 承包了十几天,昨天,OpenAI 终于坐不住了,推出了全新推理模型系列 o3-mini。不仅首次向免费用户开放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。
机器之心
2025-02-05
1560
解放双手!OSCAR让操作系统交互实现自然语言「自由」
本文作者王晓强,加拿大蒙特利尔大学(Université de Montréal)和 Mila 人工智能研究所博士生,师从刘邦教授。博士期间的主要研究方向为自然语言处理,重点关注大语言模型的能力评估及其在智能体中的应用。目前已在自然语言处理领域的顶级会议 ACL、EMNLP 等发表多篇论文。
机器之心
2025-02-05
780
多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳
本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 + 图像 + 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。
机器之心
2025-02-05
750
刚刚,OpenAI上线Deep Research!人类终极考试远超DeepSeek R1
一觉醒来,OpenAI 又发新产品了,这次是面向深度研究领域的智能体产品 ——「Deep Research」。
机器之心
2025-02-05
800
Go语言开发AI智能体有多丝滑?字节重磅开源Eino框架,内含保姆级教程
开发基于大模型的软件应用,就像指挥一支足球队:组件是能力各异的队员,编排是灵活多变的战术,数据是流转的足球。
机器之心
2025-02-05
1110
不到24小时,开源版Deep Research疯狂来袭!一月少花1400
昨日,AI 社区最大的新闻当属 OpenAI 发布的全新智能体 Deep Research 了!
机器之心
2025-02-05
970
扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
对于 LLM,推理时 scaling 是有效的!这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini……
机器之心
2025-02-03
900
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
核心作者包括顾纪豪,王瑛瑶。工作由淘天集团算法技术 - 未来生活实验室团队主要完成。为了建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果,淘天集团集中算力、数据和顶尖的技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。
机器之心
2025-02-03
610
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
本文的作者均来自北京大学与智元机器人联合实验室,通讯作者为北京大学计算机学院助理教授董豪。目前团队研究方向覆盖智能机器人的泛化操纵、具身导航和感知自主决策。团队持续开放联合实习生岗位,提供充足的机器人本体和计算资源。
机器之心
2025-02-03
830
1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首
就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
机器之心
2025-02-03
980
李飞飞:语言之外,另一半的智能还有待实现
「在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看,AI 或 AGI 对我来说是同样的事情。」
机器之心
2025-02-03
760
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
团队介绍:北京交通大学 ADaM 团队此前发布了相关的 o1 复现项目 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首个强化微调开源技术方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。
机器之心
2025-02-03
620
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档