限流熔断与降级

模型服务是外部依赖或高成本内部依赖，可能超时、限流、价格波动或不可用。AI 应用必须设计限流、熔断和降级。

# 1. 风险来源

用户维度
应用维度
租户维度
模型维度
接口维度
IP 维度

限流要区分普通用户、内部系统和高优先级任务。

当模型错误率或超时率持续升高时，暂时停止调用该模型。

正常 -> 错误率升高 -> 打开熔断 -> 快速失败或降级
     -> 半开试探 -> 恢复正常或继续熔断

熔断可以避免故障扩散到业务系统。

需要区分：

不同任务可以设置不同超时，不要一刀切。

Q：AI 请求失败要不要自动重试？

A：可以，但要限制次数，并避免对不可重试错误重复请求。

Q：流式输出如何处理超时？

A：可以设置首 Token 超时和总生成超时，并在中断时发送明确结束事件。

Q：降级结果要不要告诉用户？

A：建议在不暴露内部细节的前提下提示“当前为简化结果”或“资料不足”，避免误导。

上次更新: 2026/06/25, 17:53:09