Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

    • 大模型基础概述
    • Transformer架构概述
    • 注意力机制Attention
    • Token与上下文窗口
    • Embedding向量表示
    • 预训练指令微调与对齐
    • 生成参数与幻觉治理
    • 多模态大模型基础
      • 1. 什么是多模态
      • 2. 基本处理链路
      • 3. 典型应用
      • 4. 多模态应用风险
      • 5. 工程建议
      • 6. Tips 快问快答
  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

多模态大模型基础

多模态大模型可以处理文本、图片、音频、视频、文档等多种输入或输出形式。它让 AI 应用从纯文本对话扩展到看图、读文档、听音频、理解视频和生成视觉内容。

# 1. 什么是多模态

模态指信息的表现形式。

模态 示例任务
文本 对话、总结、翻译、代码
图片 图像理解、OCR、视觉问答
音频 语音识别、语音合成、会议纪要
视频 视频摘要、事件识别、片段检索
文档 PDF 理解、表格抽取、版面分析

多模态模型的目标是把不同模态映射到模型可以统一处理的表示空间。

# 2. 基本处理链路

图片 / 音频 / 视频 / 文档
  -> 模态编码器
  -> 向量表示
  -> 与文本上下文融合
  -> 大模型理解或生成
  -> 输出文本 / 图片 / 音频等

# 3. 典型应用

场景 能力
图片问答 识别图片内容并回答问题
截图分析 根据界面截图定位问题
文档解析 读取 PDF、表格、票据、合同
会议助手 语音转写、总结和待办提取
视频理解 提取关键事件、生成摘要
视觉生成 根据文本生成或编辑图片

# 4. 多模态应用风险

风险 说明
OCR 错误 图片文字识别不准会影响后续回答
版面理解错误 表格、页眉、脚注、跨页内容容易混乱
视觉误判 模型可能看错对象、数量、位置
隐私泄露 图片和文档可能包含敏感信息
成本较高 多模态输入通常计算成本更高

# 5. 工程建议

  1. 对文档类任务优先保留原文、页码和区域来源。
  2. 对图片理解结果进行人工可核对展示。
  3. 对票据、合同、财务数据等高风险信息做规则校验。
  4. 多模态输入进入模型前要做脱敏和权限控制。
  5. 不要把视觉模型识别结果直接用于高风险决策。

# 6. Tips 快问快答

Q:多模态模型能完全替代 OCR 吗?

A:不一定。专业 OCR 在版式、票据、表格等场景仍然有价值,多模态模型更适合理解和推理。

Q:截图分析为什么有时不准确?

A:截图分辨率、文字大小、遮挡、界面复杂度和模型视觉能力都会影响结果。

Q:多模态和 RAG 可以结合吗?

A:可以。文档、图片和音频先解析成文本或结构化内容,再进入 RAG 检索链路,是常见做法。

上次更新: 2026/06/25, 17:53:09
生成参数与幻觉治理
Prompt工程概述

← 生成参数与幻觉治理 Prompt工程概述→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式