暂无搜索历史
前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没...
近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数...
一块冰块漂浮在水中,随着时间推移,它会逐渐融化成一个微小的冰粒,最终完全消失。在这个过程中,冰块表面变得越来越光滑,所有不规则形状和锐利边缘都会逐渐消失。
今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较...
赵俭,北京邮电大学本科三年级,研究方向为大语言模型。刘润泽,清华大学硕士二年级,师从李秀教授,研究方向为大语言模型与强化学习,特别关注大模型推理能力增强与测试时...
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会...
我们知道,如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。
「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。
近日,LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据...
本文作者刘圳是香港中文大学(深圳)数据科学学院的助理教授,肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生,刘威杨是德国马克思普朗克-智能系统研究所...
大模型驱动的 AI 助手又升级了。本周五,科技圈正在围观一个陪你一起玩《我的世界》的 AI。
回顾一下人工智能的「四大发明」吧:深度神经网络→Transformer 语言模型→RLHF→推理,基本概括了 AI 领域发生的一切。
让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。
本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别...
你可能会回答,我们生活的世界纷繁复杂,常常涉及多模态信息(如声音、文字、视觉、时间、空间等等),对大模型提出了极为复杂和严苛的挑战。
今天凌晨,OpenAI 的 CEO 山姆・奥特曼突然发推说自己睡不着了,因为有重要新功能要推出。
当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真...
本周三,谷歌正式发布了旗下第七代张量处理单元(TPU)Ironwood。谷歌称,在大规模部署的情况下,这款 AI 加速器的计算能力能达到全球最快超级计算机的 2...
GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。
除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市