暂无搜索历史
近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。
作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?
文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重...
现年 69 岁的传奇程序员、「Go 语言之父」Rob Pike,这几天被一封邮件惹毛了,接连几个「F**k」爆起粗口。
前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。
因此,一个面向真实物理世界的先进的全模态智能架构,不仅需要对真实世界中的多模态交互做出正确响应,还应具备遵循物理世界规律的感知与推理能力,以实现对复杂现实环境的...
第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及...
年末的假期,正是总结思考的时候。不过对于程序员来说,仔细这么一想可能会感觉有点不对劲。
近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇...
在 2025 年的最后时刻,一个全新视频生成加速框架的开源宣告了:「等待数分钟才能生成一个视频」的时代已经终结!
在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。
近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。
但在 2025 年的尾声,从人才引进到产品迭代再到组织变革,一系列密集信号的发出,也侧面表明这个巨头正在按下加速键。
什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。
来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 Runawa...
很多人可能并不了解,在贵州,IPTV 已经成为当下覆盖最广的家庭信息入口之一 —— 家庭覆盖率接近 89%,用户规模超过 1129.5 万户。
本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者...
在 SIGGRAPH Asia 2025 期间,盛大集团(Shanda Group)旗下,盛大 AI 东京研究院(Shanda AI Research Toky...
这就是摩尔线程最新 AI 计算卡 S5000,单卡跑满血 DeepSeek 大模型的成绩。
长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市