首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Agent规模化落地前夜,AI Infra的难题全都暴露了

Agent规模化落地前夜,AI Infra的难题全都暴露了

作者头像
深度学习与Python
发布2025-11-26 15:27:41
发布2025-11-26 15:27:41
560
举报

编辑 | 陈姚戈

随着 AI Agent 在企业的大规模落地,中国的云服务市场正在出现结构性转折。基础设施的角色随之发生改变,从提供算力的工具,转向决定业务能否真正跑通的底层系统。

IDC 的研究数据显示,2025 年 -2029 年,中国云服务市场的增速放缓,而以训练、推理和智能体为核心的 AI 基础设施市场正在迅速扩大。

需求侧,企业已经不再满足于资源规模的扩张,而是开始更关注云架构是否能直接提升业务效率、支持智能化场景落地;供给侧,云厂商正在从通用云走向行业化 AI Infra,围绕数据结构、模型类型与场景约束提供更专业的算力与 PaaS 能力。

在这一过程中,大多数企业都在面临相似问题——AI Infra 是否能适配真实场景?成本是否可承受?模型、系统与场景之间是否能形成闭环?

为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。

以下内容为第一期圆桌直播内容精要。InfoQ 特别邀请 IDC 高级研究经理张犁、智诊科技产品总监罗龙生、腾讯云异构计算高级产品经理黄阳,解析 AI Infra 的六大核心能力、Agent 规模化的结构性难题、AI Infra 价值闭环衡量标准,和未来行业竞争焦点。

扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。

重估 AI Infra 价值

随着 AI 应用进入规模化落地阶段,Agent 也逐步快速渗透到各个行业。企业在评估 AI Infra 时,不再只关注芯片种类或资源规模,而是从性能优化、成本管控、运营效率、安全保障、应用落地等角度,全方面衡量其能力。

当一种基础设施尝试将价值评估的尺度,从技术参数切换到业务价值,供给侧、消费侧都需要统一认知。

IDC 总结出了 AI Infra 应具备的六个关键模块:

  • 异构算力调度能力:针对当前算力多元化的发展趋势,AI Infra 通过算力调度技术和平台,实现对异构算力芯片的深度适配和统一纳管,能够根据不同业务场景进行高效的算力选型、编排和分发。
  • 智能应用支撑能力:基于云原生调度编排、微服务框架和高性能应用服务,AI Infra 针对智能应用提供开发、部署、运维的全生命周期管理,具备支撑复杂多业务场景智能应用的能力。
  • 全链路数据管理能力:基于湖仓一体对数据采集、清洗和预处理流程的支撑能力,以及向量数据库对向量数据检索的支撑能力,AI Infra 具备针对 AI 模型开发和部署的全链路数据管理能力。
  • 训推一体化和加速能力:AI 训推平台针对 AI 模型训练 / 微调和推理框架的支撑能力,以及对于 AI 训推流程的加速能力,成为 AI Infra 在 AI 模型开发层面的核心技术平台。
  • 安全体系构建能力: 基于隐私计算和联邦学习的核心安全能力,AI Infra 融合基础云安全能力,构建适配 AI 模型和应用的智算安全体系,保障 AI 模型和用户敏感数据的安全。
  • 全流程场景化服务能力:针对智能体(Agent)在各行业领域加速应用的趋势,AI Infra 具备支撑智能体开发与应用全流程的场景化服务能力,为 MCP 等智能体相关技术提供了稳定的运行环境。

六大关键模块帮助企业从宏观上衡量 AI Infra,但具体企业的发展阶段中,这些能力的优先级可能被重新排序,不同阶段呈现出不同的侧重点。

在训练阶段,客户更重视的是数据处理效率与训练的稳定性。以腾讯云服务的千卡级训练客户为例,训练任务一旦中断,每小时可能造成数十万元损失。为此,腾讯云构建了多层级指标监控体系,实现 7×24 小时全局监控、五分钟内恢复训练、十分钟内修复基础设施,并尽量减少人工介入,以保证训练任务连续性。

在推理阶段,客户侧重点转向推理效率与成本控制。无论是智诊科技这样的医疗公司,还是手机厂商,大规模推理的成本结构直接决定了业务可持续性。同时,医疗和金融等行业因数据不能出域,对推理环境的安全性、部署复杂度和可信度提出更高要求。

围绕这些需求,腾讯云推出了推理集群服务,将推理加速、安全体系、扩缩容、调度等能力全部封装进统一底座,帮助客户摆脱自行搭建推理环境的负担,让企业可以把精力集中在模型和业务本身。

AI Infra 的风险和成本控制

明确了衡量 AI Infra 能力的宏观框架,实际落地过程中,企业还需要用可量化的方式,判断 AI Infra 在具体业务场景的价值。

智诊科技产品总监罗龙生给出了一个十分有启发性的方法,即衡量 “跑通一个最小业务闭环的成本与周期”

这个闭环包括三个阶段:

  • 数据输入:如医院海量、非结构化的业务数据进入 AI 平台。
  • 价值处理:完成数据清洗、模型训练 / 精调,并部署为可调用的 Agent 服务。
  • 业务反馈与再循环:Agent 在真实应用场景中产生有效互动,这些数据再回流推动下一轮模型迭代。

当数据飞轮持续转动,模型和场景有效互动,推理的单位成本低于业务价值时,AI Infra 才真正形成可持续的价值闭环。

Agent 的大规模应用,也对企业的成本控制提出了更高要求,控制成本,避免账单爆炸成为企业的核心能力。

“AI 时代的应用,跟互联网时代的应用不一样,随着用户量增加,成本是增加的,”智诊科技产品总监罗龙生表示,“这时,解决 Token 问题的核心工作是去做非常精细化的系统工程,而不是依赖某个单点技巧。”

在技术架构上,最关键的是上下文工程与分级模型路由。不能将所有任务都交给最大模型,而是要先进行意图分类、结构化抽取等步骤,把业务拆解成多个节点,只有核心任务才交给大型模型处理。这样既保证效果,又能显著减少高成本 Token 消耗。

第二个技术支点是记忆系统设计。为了保持回答连贯,很多场景需要长上下文,但直接把所有历史对话送进模型不仅成本极高,还会导致上下文腐烂。因此必须构建独立的记忆体系,对交互内容进行结构化压缩、低成本存储,并在新请求到来时只检索与当前任务最相关的记忆片段,通过向量模型实现高质量召回,从源头上削减 Token 量。

在产品层面,应用需要引导用户提出更精准的问题,减少无效轮次,并探索差异化付费机制,让重度、高价值场景产生可持续收入,以抵消推理成本。

在平台层面,需借助云厂商能力,例如预算告警、实时监控、推理加速、模型量化与剪枝等优化手段,进一步降低整体 Token 消耗和算力成本。

同时,互联网时代就存在的“单一云绑定”风险,如今在 AI Infra 上被进一步放大。

对此,腾讯云异构计算高级产品经理黄阳表示,单一云绑定并非必然结果,而是可以被管理与规避的挑战

他指出,企业的集中需求,正促使整个 AI Infra 行业都在朝着更灵活、更智能的方向发展。未来的基础设施需要支持不同厂商的芯片、分布式云架构、多云策略,并允许企业按需将 AI 工作负载部署在公有云、私有云、自建数据中心或边缘节点。

黄阳强调,腾讯云正在将这一理念落到实处:一方面通过机器学习平台提供多芯片纳管与开源模型支持,降低企业上云门槛;另一方面将推理框架等技术完全开放到 GitHub,减少对客户的技术绑定。他认为,虽然绑定担忧真实存在,但随着 AI Infra 走向开放与灵活,企业无需过度焦虑这一问题。

AI Infra 下一阶段的竞争逻辑

随着 Agent 在行业中加速落地,AI Infra 的竞争开始从“比技术”走向“比业务价值”。过去的差异主要集中在芯片供给、训练性能和算力成本上;未来真正拉开距离的,将是平台能否让企业以更低成本、更高自由度和更完善的生态部署 AI。

嘉宾们普遍认为,在当下,算力成本仍是最核心的竞争力;并且算力成本仍是腾讯云内部最核心的北极星指标。 不过,这一阶段的差距会随着硬件迭代与市场竞争迅速收窄。

当价格差异不再显著,竞争焦点会自然转向平台开放性。 平台能否兼容更多模型框架、工具链是否完善、数据与算法接入是否便捷,以及开发者能否不被锁定在封闭体系中,将直接决定企业的开发效率与创新空间。

最难形成壁垒的,但也最具长期价值的,则是生态整合能力。 在心智上,是否能成为开发者遇到问题时首先求助的平台;业务上,平台能否为企业提供触达用户的通路、汇聚上下游合作伙伴、形成完整产业链。最终,应用方会选择“既能帮我省钱,也能帮我赚钱”的生态。

未来 AI Infra 的竞争将经历从成本、开放性到生态的逐层演化。而真正的竞争力,将来自一种综合能力——让企业以更低成本、更大选择空间和更完整的生态来部署和运营 AI。

11 月 20 日,「InfraTalk」第二期“AI 算力”专场,将在视频号直播间进行。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档