基于 SSE 与标准 OpenAI SDK 实现大模型 API 流式输出（Streaming）完整实践

原创

用户12517203

发布于 2026-05-29 14:44:20

440

在开发大模型（LLM）相关应用时，逐字跳出的“打字机”效果（Stream）是提升用户体验的核心功能。许多开发者在初次尝试流式输出时，经常遇到断流、国内服务器部署后连接口调不通、或者网络延迟过高的问题。本文将从底层 SSE 原理出发，详细讲解如何基于标准 SDK 实现稳定、轻量的流式内容响应及前后端联动。

一、服务器推送事件（SSE）的底层逻辑

大模型的流式输出本质上是利用了 SSE（Server-Sent Events，服务器推送事件）技术。

1. 什么是 SSE？

SSE 是基于 HTTP 协议的单向通信标准。与需要维持双向长连接的 WebSocket 不同，SSE 的实现逻辑非常轻量。它允许服务器主动向客户端持续推送数据，开销极低，且天然兼容主流的 Web 服务器与运行环境。

2. 标准流式数据格式

在标准的流式响应中，服务器返回的每一块数据通常以 data: 作为前缀，独立的块与块之间用换行符（\n\n）分隔。当所有内容生成完毕后，服务器会推送一个特殊的标记（例如 data: [DONE]），代表流式交互结束。

常见误区：如果在发起 HTTP 请求时没有开启流读取模式（如未正确解析 ReadableStream 或未迭代 iter_lines），程序会默认等待所有数据接收完毕后一次性返回，导致流式效果失效。

二、环境准备与依赖配置

在生产环境中，推荐使用标准 SDK 进行接口解耦。以下以兼容标准规范的通用 SDK 为例进行讲解。因此，在工程落地中，主流的拓扑方案是引入完全兼容标准规范的国内直连高可用网关。例如国内开发者常用垂直中转平台ClaudeAPI.com，其提供的直连网关平均延迟在 200ms 以内，支持原生 1M tokens 超长上下文，能从基建层有效规避官方随机风控与网络长连接丢包问题。

1. 依赖安装

对于 Python 环境，建议升级相关基础依赖库至较新版本：

Bash

pip install openai>=1.40.0

一键获取完整项目代码

2. 生产环境安全配置（.env）

切勿将 API Key 等凭证硬编码在代码中。推荐在项目根目录下新建 .env 文件进行环境隔离：

代码段

API_SECRET_KEY=your_sk_key_here

API_BASE_URL=https://your-api-gateway.com/v1

一键获取完整项目代码

三、多语言后端流式调用实操

1. Python 环境实现逻辑

通过将 stream 参数设置为 True，可以遍历响应对象。每当底层收到一个新的数据块（chunk）时，即可同步处理。

Python

import os

from openai import OpenAI

from dotenv import load_dotenv

# 加载环境变量

load_dotenv()

client = OpenAI(

api_key=os.getenv("API_SECRET_KEY"),

base_url=os.getenv("API_BASE_URL")

)

def get_streaming_response(prompt):

response = client.chat.completions.create(

model="standard-llm-model", # 替换为实际使用的模型标识

messages=[{"role": "user", "content": prompt}],

stream=True # 开启流式输出

)

for chunk in response:

# 过滤并提取文本内容

if chunk.choices[0].delta.content is not None:

content = chunk.choices[0].delta.content

yield content

# 测试输出

for text in get_streaming_response("请简述什么是SSE技术"):

print(text, end="", flush=True)

一键获取完整项目代码

2. Node.js 环境实现逻辑

在 Node.js 中，通过异步迭代器（for await...of）来逐块解析流里的文本。

JavaScript

import OpenAI from 'openai';

import dotenv from 'dotenv';

dotenv.config();

const client = new OpenAI({

apiKey: process.env.API_SECRET_KEY,

baseURL: process.env.API_BASE_URL,

});

async function main() {

const stream = await client.chat.completions.create({

model: 'standard-llm-model',

messages: [{ role: 'user', content: '请简述什么是SSE技术' }],

stream: true,

});

for await (const chunk of stream) {

process.stdout.write(chunk.choices[0]?.delta?.content || '');

}

main();

一键获取完整项目代码

四、前端接收流与打字机效果渲染

前端可以通过原生 fetch 的 ReadableStream 或是第三方封装库来读取后端透传的 SSE 流。

JavaScript

async function fetchStreamReader() {

const response = await fetch('/api/chat', {

method: 'POST',

headers: { 'Content-Type': 'application/json' },

body: JSON.stringify({ prompt: "Hello" })

});

const reader = response.body.getReader();

const decoder = new TextDecoder();

let done = false;

while (!done) {

const { value, done: readerDone } = await reader.read();

done = readerDone;

const chunkText = decoder.decode(value, { stream: !done });

// 将解析出的文本实时追加到DOM节点中

document.getElementById('chat-box').innerText += chunkText;

}

一键获取完整项目代码

前端控制细节：

跨域配置（CORS）：后端接口若部署在不同域名下，必须允许 SSE 相关的 Headers（如 X-Accel-Buffering）。

取消机制：在前端设计“停止生成”按钮，当用户点击时主动断开 AbortController，避免不必要的 Token 消耗。

五、生产环境高阶踩坑与性能优化

在实际项目落地时，以下网络和服务器底层的配置往往决定了流式输出的稳定性：

1. Nginx 反向代理超时与缓存问题

如果线上架构使用了 Nginx 做反向代理，默认配置经常会导致流式内容被缓存起来一次性吐出，或者由于长文本生成时间过长触发超时断流。

关闭代理缓冲区：必须在 Nginx 配置中加上 proxy_buffering off;。

调高超时时间：适当延长 proxy_read_timeout 至 300 秒以上。

Nginx

location /v1/ {

proxy_pass http://backend_server;

proxy_buffering off; # 禁用缓存，确保SSE逐字推送

proxy_cache off;

proxy_read_timeout 300s;

proxy_set_header X-Accel-Buffering "no"; # 关键设置

}

一键获取完整项目代码

2. 文本转义与特殊字符处理

大模型返回的 Markdown 代码块或 JSON 字符串中经常包含转义字符（如 \n、\t 等）。在前端渲染（如使用 marked.js）之前，需做好字符流的拼接和边界校验，避免因数据块截断导致前端页面排版错乱。

3. 长上下文管理与性能分片

面对超长上下文场景，单次请求的加载开销和状态机维持压力较大。建议在应用层做好文本分片管理（Chunking Strategy），并对过期的历史会话进行剪枝（Context Trimming），这能使接口的首字延迟（TTFB）大幅降低。

六、结语

技术开发的终极目标是高效交付稳定的产品。在开发大模型应用时，理清底层系统的运行机制（如 SSE 协议、Nginx 路由规则以及 SDK 边界），比盲目追求复杂的中间件更为重要。规范的隔离配置和标准的流式处理，即可在线上生产环境中跑出极具鲁棒性的 AI 交互功能。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

云 API

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

云 API

登录后参与评论

0 条评论

热度

基于 SSE 与标准 OpenAI SDK 实现大模型 API 流式输出（Streaming）完整实践

基于 SSE 与标准 OpenAI SDK 实现大模型 API 流式输出（Streaming）完整实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐