多模态大模型基础

多模态大模型可以处理文本、图片、音频、视频、文档等多种输入或输出形式。它让 AI 应用从纯文本对话扩展到看图、读文档、听音频、理解视频和生成视觉内容。

# 1. 什么是多模态

模态指信息的表现形式。

多模态模型的目标是把不同模态映射到模型可以统一处理的表示空间。

图片 / 音频 / 视频 / 文档
  -> 模态编码器
  -> 向量表示
  -> 与文本上下文融合
  -> 大模型理解或生成
  -> 输出文本 / 图片 / 音频等

Q：多模态模型能完全替代 OCR 吗？

A：不一定。专业 OCR 在版式、票据、表格等场景仍然有价值，多模态模型更适合理解和推理。

Q：截图分析为什么有时不准确？

A：截图分辨率、文字大小、遮挡、界面复杂度和模型视觉能力都会影响结果。

Q：多模态和 RAG 可以结合吗？

A：可以。文档、图片和音频先解析成文本或结构化内容，再进入 RAG 检索链路，是常见做法。

上次更新: 2026/06/25, 17:53:09