为什么需要AI网关?
因为随着企业内部AI服务数量爆炸增长,AI调用管理正成为新的技术瓶颈。
AI Gateway,本质上可以理解成是由一个传统API网关的变种(API网关功能之上叠加了AI的场景) + LLM网关 ,这两部分组成。在整体架构图上如下图所示:

相比于传统的API网关,AI场景下多采用SSE/WebSocket协议来保持长连接;网关除了需要处理传统的文本数据之外,多模态场景下还需处理图片、音视频等数据;不同的业务场景下,调用模型会是通用大模型+垂类模型的混合模式;并且AI场景下的数据流量将会更大,以流式传输为主,需要更大的带宽,响应时间更长(尤其推理场景下),也会更容易遭受Prompt等攻击,所以安全防护层面尤为重要......
话不多说,下面针对一些网关的核心功能进行说明。
API网关除了传统的能力外,还需要处理以token为核心的流量,采用流式输出的方式。
传统API接口主要是restful和gRPC两种协议,MCP则需要将SSE转换为Streamable HTTP,这就要求API网关新增支持这种协议卸载能力,在MCP Server前端做一层代理。
RESTful和gRPC协议补充说明: 「设计理念」 RESTful:基于HTTP协议,使用标准的HTTP方法(如GET、POST、PUT、DELETE)对资源进行操作,强调资源的统一接口和状态转移。 gRPC:由Google开发的高性能开源RPC框架,基于HTTP/2协议,使用Protocol Buffers作为序列化协议,支持流式传输和强类型语言。 「性能」 RESTful:使用文本格式的JSON进行数据交换,可读性强但性能相对较低,存在数据冗余和解析耗时的问题。 gRPC:采用二进制格式的Protocol Buffers,数据体积小、传输效率高,适合高性能和低延迟的场景。 「使用场景」 RESTful:适用于面向互联网的公开API,具有广泛的兼容性和简单易用性,支持多种数据格式和浏览器。 gRPC:适用于内部系统通信、实时数据传输、微服务架构等高性能场景,支持多种编程语言和流式传输。 「开发与维护」 RESTful:开发工具和文档丰富,易于上手和维护,生态系统强大。 gRPC:需要学习Protocol Buffers和HTTP/2,学习成本较高,但提供代码自动生成和强类型检查,减少运行时错误。 「安全性」 RESTful:通过HTTPS实现安全通信,支持常见的安全机制如OAuth、JWT等。 gRPC:支持双向TLS认证,提供更细粒度的安全控制,安全性更高。 综上所述,RESTful和gRPC各有优势,选择哪种协议取决于具体的应用场景和需求。如果需要广泛的兼容性和简单易用性,RESTful是合适的选择;如果对性能和实时性有较高要求,gRPC可能更为适合。
❞
大模型按照token作为计量单位,身为AI 网关就需要支持基于token角度进行流量监控、管控。
「监控」:基于用户维度,对每个用户使用的token进行监控,建立用户token流量基线模型。
「管控」:基于用户维度,支持对某个用户在某个时间段进行token限流,支持异常流量下的阻断。
大模型路由主要根据用户的需求和服务器状态,动态的选择最优模型。所以这里要注意,不单单只是依据用户Prompt自动选择模型,还需要考虑整体GPU负载等因素。核心功能应包含以下几点:
LLM Gateway的主要能力,基于《网络安全技术 生成式人工智能服务安全基本要求》的5大类31小类风险类型对大模型的输入输出进行安全防护,确保对外服务安全、合规和可追溯。核心功能如下: