Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

    • AI工程化概述
    • 模型网关设计
    • SSE与流式响应
    • 上下文压缩与摘要
    • AI成本与缓存策略
    • 限流熔断与降级
    • 结构化输出解析
    • AI评估与回归测试
    • 日志指标与链路追踪
      • 1. 需要观测什么
      • 2. 日志字段
      • 3. 核心指标
      • 4. 链路追踪
      • 5. 隐私与合规
      • 6. 常见告警
      • 7. Tips 快问快答
  • AI安全与治理

  • AI面试与设计题

目录

日志指标与链路追踪

AI 应用排查问题比普通接口更复杂,因为一次回答可能涉及 Prompt、模型、检索、重排、工具调用和安全策略。必须建立日志、指标和链路追踪。

# 1. 需要观测什么

用户请求
  -> Prompt 版本
  -> 检索结果
  -> 模型调用
  -> 工具调用
  -> 安全检查
  -> 输出结果
  -> 用户反馈

每个阶段都要能定位耗时、错误和输入输出摘要。

# 2. 日志字段

字段 说明
request_id 单次请求唯一标识
user_id / tenant_id 用户和租户
scenario 业务场景
model 使用的模型
prompt_version Prompt 版本
input_tokens 输入 Token
output_tokens 输出 Token
latency 总耗时
retrieval_ids 命中的文档 Chunk
tool_calls 工具调用摘要
safety_result 安全检查结果
status 成功或失败

敏感信息要脱敏或摘要记录。

# 3. 核心指标

指标 说明
请求量 QPS、调用次数
成功率 成功响应比例
错误率 模型、检索、工具错误
延迟 平均、P95、P99
首 Token 时间 流式体验关键指标
Token 用量 成本分析
缓存命中率 成本优化效果
用户反馈 点赞、点踩、转人工

# 4. 链路追踪

Trace
├─ API 请求
├─ RAG 检索
├─ Rerank
├─ Model Call
├─ Tool Call
├─ Safety Check
└─ Response

链路追踪能回答“慢在哪里”“错在哪里”“用了哪些资料”。

# 5. 隐私与合规

日志不能无脑记录完整 Prompt 和输出。

建议:

  • 敏感字段脱敏。
  • 高权限日志访问控制。
  • 设置日志保留周期。
  • 记录摘要和哈希。
  • 需要调试时按审批查看原文。

# 6. 常见告警

  1. 模型错误率升高。
  2. P95 延迟升高。
  3. Token 用量异常。
  4. 安全拦截异常增多。
  5. 检索无结果率升高。
  6. 用户点踩率升高。

# 7. Tips 快问快答

Q:要不要记录完整 Prompt?

A:调试有价值,但有隐私风险。生产建议脱敏、分级访问和设置保留周期。

Q:AI 应用最重要的指标是什么?

A:要看场景。通常至少要有质量、延迟、成本、安全和用户反馈五类指标。

Q:如何排查 RAG 答错?

A:先看检索命中的 Chunk,再看重排顺序、上下文拼接、Prompt 和最终模型输出。

上次更新: 2026/06/25, 17:53:09
AI评估与回归测试
AI安全与治理概述

← AI评估与回归测试 AI安全与治理概述→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式