SSE与流式响应

流式响应是大模型应用常见交互方式。模型逐步生成 Token，服务端边接收边推送给前端，用户可以更早看到结果。

# 1. 为什么需要流式响应

大模型完整生成可能需要数秒甚至更久。如果等全部生成后再返回，用户会感觉卡顿。

非流式：请求 -> 等待完整生成 -> 一次性返回
流式：请求 -> 持续生成 -> 持续返回

SSE（Server-Sent Events）适合服务端向浏览器单向推送事件。

浏览器 EventSource / fetch stream
  -> 服务端 SSE 接口
  -> 模型流式输出
  -> data: token
  -> data: token
  -> event: done

SSE 比 WebSocket 简单，适合聊天输出这类单向流。

不要只传纯文本，结构化事件更容易扩展。

Q：SSE 和 WebSocket 怎么选？

A：只需要服务端向客户端推送生成内容时，SSE 更简单；需要双向实时通信时用 WebSocket。

Q：流式输出能降低模型总耗时吗？

A：不一定降低总耗时，但能显著缩短首屏等待时间。

Q：流式内容要不要落库？

A：建议生成完成后保存完整消息，同时记录中断和错误状态。

上次更新: 2026/06/25, 17:53:09