暂无搜索历史
去年 5 月,OpenAI 发布全模态 AI 模型 GPT-4o,凭借实时处理文本、图像、音频输入的强大功能,以及像电影《Her》中一样媲美人类对话的响应速度、...
近期,DeepSeek 发布其旗舰推理模型 R1 的最新迭代版本——DeepSeek-R1-0528。尽管官方将此次更新界定为“小幅试验性升级”,但该版本已在全...
今年3月,号称全球第一款通用 Agent 产品的 Manus 爆火出圈,当时整个互联网圈子一"码"难求的场面让人印象深刻,在其演示视频中 ,Agent一步步逐级...
近日,Claude 4 系列模型正式推出, Anthropic 宣称,Claude Opus 4 是全球最佳编码模型,在复杂、长期运行的任务和代理工作流中表现持...
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱受诟病,要么缺乏对本...
di腾讯几天前发布混元图像 2.0 模型,创新性地实现了“边说话边出图”、“边打字边出图”的功能,为我们带来了前所未有的交互新体验,那么它的实际能力表现又如何了...
2024年7月,OpenAI 公司提出了通用人工智能(AGI)的五层框架理论,将 AGI 的发展分为5个阶段:聊天机器人(Chatbots)、推理者(Reaso...
① o3 毫无悬念的登顶,在交互能力、推理能力、指令遵循和初等数学四个方面全面领先;
北京时间4月17日凌晨一点,OpenAI 开启了20分钟线上直播,上线了满血版 o3,还有下一代推理模型 o4-mini,官方称是 OpenAI 迄今为止最智能...
字节跳动研发团队最新发布的Multi-SWE-bench基准测试,以7种主流编程语言、1632个人工验证的GitHub Issue实例,这项发表于2024年的研...
此次主要测试了7道题,测试目标为AI在数学陷阱题目上的表现。测试对象为推理系头部模型deepseek-r1、gpt-4o,对话系头部模型d豆包1.5 pro、Q...
之前我们社区针对推理系模型做过多项能力考察,在学科和代码方面都做了详细分析。今天我们也对现在市面上能力排行前列的 R1、o1 及 o3-mini 这三款推理系模...
论文作者为来自于 Fudan University 的 Yantao Liu、Yixin Cao,Tsinghua University 的 Zijun Yao...
本报告为可支持视频通话产品的跨模态交互开箱评测方案及对应结论,待测产品需要在 3 分钟左右的时间内与用户进行实时视频交互形式下的多轮次对话。数据覆盖生活常见的视...
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o...
自从年初 DeepSeek R1 版本开源后,国内外都又开始卷起推理系模型,不论是腾讯的 T1 还是字节在豆包上线“深度思考”推理模式的模型,高难度学科竞赛、代...
Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:
最近一段时间,Agent 可以说是毫无争议的 AI 领域顶流话题,在搜索平台随便输入 Agent,满眼都是 “爆火”“刷屏”“重磅” 这样的字眼。2025年初以...
本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写,第一作者张劭为上海交通大学博士生(导师:温颖副教授),研究方向为人智协同与多智...
25 日 Open AI 宣布将自己迄今为止最先进的图像生成器构建到 GPT‑4o 中。使用能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市