设想这样一个场景:你正尝试用一款SOTA大模型开发金融风控工具,辅助业务人员分析数据。起初,它的表现堪称惊艳,无论是生成报表还是初步解读都游刃有余。但当你将它投入更严肃的测试时,噩梦开始了——模型信誓旦旦地引用了不存在的监管条例,还将两个关键的用户数据字段“张冠李戴”,而这一切都包装在极其专业流畅的术语中。你惊出一身冷汗,如果不是人工复核,后果不堪设想。
这,正戳中了当下无数专业领域开发者和业务方的痛点。正如蚂蚁集团副总裁、蚂蚁密算董事长韦韬指出:AI在实际落地时往往只有70%-85%的可靠性,但对于金融、医疗等专业场景,99%的可靠性仅仅是“及格线”。这个鸿沟,成为大模型在专业领域从“玩具”走向“工具”的最大障碍。
对此,在2025世界人工智能大会(WAIC)上,蚂蚁集团旗下蚂蚁密算宣布对外开源高阶程序(High-Order Program)大模型可信应用技术框架,通过外部化控制与核验,为构建可信、可控、可维护的大模型应用提供了务实的参考标准。
韦韬对CSDN强调,与业界一些通用场景实践去逼近99%的上限不同,蚂蚁密算由于为专业应用可靠性负责的特点,对HOP框架的设计确实以99%为及格线。
重审AI“幻觉”:是特性,而非BUG
要解决这个问题,我们首先要正确认识“幻觉”。幻觉并非简单的程序错误,而是智力系统与生俱来的高阶功能产物。无论是人类还是高级AI,其智力都依赖于模式识别和预测性编码。当信息不完整或存在矛盾时,大脑(或模型)会通过“逻辑补全”来生成一个看似合理的解释,这便是幻觉。
然而,这也是人类打破现实约束、激发非逻辑灵感跳跃的关键。例如,凯库勒在梦中见到衔尾蛇而顿悟苯环的结构,最终为有机化学开辟了全新的研究领域。
“幻觉是智力的必然代价。若消除所有幻觉,大模型将退化为机械的检索工具。”浙江大学教授、区块链与数据安全全国重点实验室主任陈纯强调,“可靠性的突破在于构建工程化保障框架。”
更直白地说,我们的目标,应该是建立一个能够驾驭AI不确定性、确保最终结果可靠的工程体系。
人类的解法:源于工程化的智慧
实际上,人类自身作为“智能体”,也充满了个体的不可靠性。然而人类依靠“工程化”这一最宝贵的沉淀,实现了体系的高可靠性。其核心方法有二:
* 标准作业程序 (SOP):科学管理之父泰勒提出的SOP,通过“动作分析”将复杂任务分解为可重复、可量化的标准操作。它构成了民航、医疗等高危领域安全操作的基础。
* 检查清单 (Checklist):正如阿图·葛文德在《清单革命》中所倡导的,一张简单的清单为我们搭建起“认知防护网”。它能弥补人类记忆和注意力的天然缺陷,曾创造将手术术后感染率从11%降至0%的奇迹。
人类文明的实践证明,将智能化与工程化融合,是保障专业可靠性的必经之路。而HOP高阶程序,就是蚂蚁密算沿袭这一工程体系进行探索的新成果。
韦韬表示,通过全新的程序表达、场景知识嵌入和闭环核验反馈机制,可以将大模型不确定的智力输出转化为可信的专业生产力。
HOP:大模型时代的SOP与检查清单
HOP并非一种全新的编程语言,而是一种创新的编程思想和框架。它巧妙地融合了两种语言的优点:逻辑采用编程语言(如Python),来保证流程的精确性、可维护性和可验证性;而知识概念采用自然语言,以发挥大模型在模糊匹配和动态演化上的独特优势。
它的核心组件包括三个部分:业务逻辑的程序化表达、场景知识图谱和受控工具链。
韦韬表示,HOP本质上是行业SOP的沉淀,与大模型形成了极强的互补关系。
毫无疑问,程序化业务逻辑是三要素中最大的难点,因为不仅不同行业有不同的业务逻辑,同一行业还有很多非标逻辑需要处理,这就需要行业专家共建。
HopLogic执行框架:为智能套上“缰绳”
为了让HOP从理念变为现实,蚂蚁研发了一套高阶程序执行框架HopLogic,它为大模型的执行提供了四个关键能力:可执行、可核验、可派生、可编排。其中,可核验是核心中的核心。
核心原理:核验复杂性塌缩
让大模型求解一个模糊任务可能很复杂,但验证一个解是否正确,其复杂度往往会大幅下降。HopLogic框架正是利用了这一点,在全流程中贯穿了核验机制,内置了自动化核验(如逆向核验)与手工强化核验相结合的复合策略,为大模型的每一步输出都进行“交叉验证”,确保其没有“说谎”。
界定能力边界:完成率 vs 正确率
传统的大模型应用像个黑箱,你不知道它到底会什么。HOP通过两个关键指标,首次让模型的能力边界变得“显性化”。
* 正确率:通过行业场景的打标样本集(HopBench)来度量,这是保障业务可靠性的“压舱石”。
* 完成率:指大模型能够成功通过所有核验并输出结果的比率。它明确了大模型能处理的任务范围。韦韬指出,当正确率达标后,完成率每提升一个9,意味着人工介入成本下降10倍,这对行业是巨大的价值提升。
敏捷迭代:比微调更轻、更准
当指标不达标时,传统方法是进行模型微调(SFT),但这不仅成本高昂,还可能导致模型在未训练领域的性能退化。HOP提供了一种更轻量级的迭代方式,通过优化HOP过程、补充场景知识图谱或强化核验逻辑,就能解决绝大部分问题。这种方式与底层大模型解耦,更换底座也更容易。
对于这一系统性的探索,陈纯教授表示,期待:通过智能与工程的深度融合的高阶程序,构建“技术+制度”的双重保障体系,实现“智力自由”与“专业严谨”的共生。
案例深潜:用HOP解决医疗重复收费难题
医疗重复计费是医院管理中的一大顽疾。由于收费项目繁杂(近两万项),交叉规则众多,人工核查极难查全。
韦韬分享了蚂蚁与一家医院合作应用HOP技术解决这个问题的案例。对于“判断【关节镜下膝关节清理术】和【膝关节滑膜切除术】是否重复收费”这样的任务,以下伪代码展现了HOP独特的协同模式:
在这个例子中,hop_get和hop_judge是与大模型交互的接口。开发者用确定的编程逻辑(def, for, if)构建了核验的“骨架”,而在需要专业知识和模糊判断的节点,则“委托”大模型来填充“血肉”。
加入HOP核验的人机协同后,Qwen3-32B大模型执行的可靠性从76%一举提升至98%。
医疗领域如此,HOP在金融领域取得的效果更为显著。在金融风控全链路自动化中,它将SOP转化为可执行流程,并实现智能化编排,有效缩短建模周期,成本大幅降低,可靠性显著提高。
此外,在网络安全事件研判中,HOP能将研判时间从几十分钟降至分钟级;在事实核验场景中,HOP能自动提取文本中的事实点并逐一进行查证。这些不同领域的案例,充分证明HOP可落地、可迁移的价值。
开发者的未来:共建规模化专业生产力
大模型是时代的“引擎”,而融合了工程化与智能化的HOP,正是确保这台强大引擎能够安全、高效、可靠行驶的“电控系统”。韦韬认为,行业AI变革需要从“引擎”走向“整车”。
未来,行业的竞争不再仅仅是基座模型优劣的竞争,更是顶尖行业专家构建的HOP应用的竞争。一个被称为高阶程序智能体(HOP Agent)或跃序智能体的新物种将会兴起,可靠地减少大量行业数字化的例行任务。
HOP不仅是一个框架,更是一个生态的开端。随着开源的动作,这个生态的大门正向所有开发者、行业专家敞开。
韦韬表示,期待更多开发者及行业专家加入到HOP开源生态,共同为大模型装上工程化的“安全带”,一起把大模型从人类助手变成规模化专业生产力,推动我国数字化领域的生产力再上一个台阶,真正释放AI在千行百业的变革力量。