日志指标与链路追踪
AI 应用排查问题比普通接口更复杂,因为一次回答可能涉及 Prompt、模型、检索、重排、工具调用和安全策略。必须建立日志、指标和链路追踪。
# 1. 需要观测什么
用户请求
-> Prompt 版本
-> 检索结果
-> 模型调用
-> 工具调用
-> 安全检查
-> 输出结果
-> 用户反馈
每个阶段都要能定位耗时、错误和输入输出摘要。
# 2. 日志字段
| 字段 | 说明 |
|---|---|
| request_id | 单次请求唯一标识 |
| user_id / tenant_id | 用户和租户 |
| scenario | 业务场景 |
| model | 使用的模型 |
| prompt_version | Prompt 版本 |
| input_tokens | 输入 Token |
| output_tokens | 输出 Token |
| latency | 总耗时 |
| retrieval_ids | 命中的文档 Chunk |
| tool_calls | 工具调用摘要 |
| safety_result | 安全检查结果 |
| status | 成功或失败 |
敏感信息要脱敏或摘要记录。
# 3. 核心指标
| 指标 | 说明 |
|---|---|
| 请求量 | QPS、调用次数 |
| 成功率 | 成功响应比例 |
| 错误率 | 模型、检索、工具错误 |
| 延迟 | 平均、P95、P99 |
| 首 Token 时间 | 流式体验关键指标 |
| Token 用量 | 成本分析 |
| 缓存命中率 | 成本优化效果 |
| 用户反馈 | 点赞、点踩、转人工 |
# 4. 链路追踪
Trace
├─ API 请求
├─ RAG 检索
├─ Rerank
├─ Model Call
├─ Tool Call
├─ Safety Check
└─ Response
链路追踪能回答“慢在哪里”“错在哪里”“用了哪些资料”。
# 5. 隐私与合规
日志不能无脑记录完整 Prompt 和输出。
建议:
- 敏感字段脱敏。
- 高权限日志访问控制。
- 设置日志保留周期。
- 记录摘要和哈希。
- 需要调试时按审批查看原文。
# 6. 常见告警
- 模型错误率升高。
- P95 延迟升高。
- Token 用量异常。
- 安全拦截异常增多。
- 检索无结果率升高。
- 用户点踩率升高。
# 7. Tips 快问快答
Q:要不要记录完整 Prompt?
A:调试有价值,但有隐私风险。生产建议脱敏、分级访问和设置保留周期。
Q:AI 应用最重要的指标是什么?
A:要看场景。通常至少要有质量、延迟、成本、安全和用户反馈五类指标。
Q:如何排查 RAG 答错?
A:先看检索命中的 Chunk,再看重排顺序、上下文拼接、Prompt 和最终模型输出。
上次更新: 2026/06/25, 17:53:09