logo
12

多模态与工具链

⏱️ 40分钟

Multimodal Tooling

Multimodal AI 最容易被做成“什么都能传”的 feature,但真正上线时问题很多:图像理解不稳、OCR 成本高、视频太慢、audio pipeline 难管、tool schema 一复杂就容易炸。AI engineer 真正要做的,不是把 modality 加得越多越好,而是把每一种 modality 变成可控的 product capability。

所以这页讲的不是模型列表,而是 multimodal tooling 应该怎么选、怎么接、怎么控。

Multimodal Tooling Matrix


先说结论:先拆 modality,再选工具

很多 team 一看到支持 vision / audio / video 的模型,就想“一把梭”。
更稳的顺序应该是:

  1. 明确你要处理哪种输入
  2. 判断是直接多模态理解,还是先转成 text
  3. 再决定用通用模型还是专用工具

不是所有 multimodal task 都该直接交给一个大模型做。


不同 Modality,工程问题完全不同

Modality常见任务工程重点
imageOCR、caption、UI understanding、chart Q&Aresolution、OCR quality、region reference
audioSTT、meeting note、TTSnoise、speaker、chunk、timestamp
videotranscript、scene summary、event extractionframe sampling、长时长、成本
filesPDF、slides、spreadsheet、repoparsing、metadata、page mapping
toolsweb search、DB query、code execschema、permission、latency、safety

如果你把这些问题当成一类处理,后面很容易又贵又不稳。


一个更现实的工具选择逻辑

场景更稳的方案
简单图片理解vision-capable LLM
高质量 OCR先 OCR,再交给 text LLM
meeting transcript先 STT,再做 summary / action item
长视频分析transcript + scene summary,而不是逐帧硬喂
结构化图表理解专用解析 + LLM 解释

很多 multimodal 系统真正跑得稳,是因为先做 preprocessing,而不是直接把原始输入丢给模型。


Metadata 是 multimodal 系统的命根子

一旦进入图片、音频、视频、PDF,metadata 就变得非常关键。

最少要保留:

  • filename / source id
  • page / frame / timestamp
  • chunk order
  • extraction method
  • confidence if available

没有这些,后面 citation、review、debugging 都会变得非常困难。


Multimodal RAG,不是把文件扔进向量库就结束

更靠谱的做法通常是:

extract text / OCR / transcript
  -> add metadata
  -> embed/index
  -> retrieve by source-aware chunks
  -> generate with citations

尤其是 image 和 video,真正可检索的常常不是原始像素,而是:

  • OCR text
  • caption
  • scene summary
  • timestamped transcript

这也是为什么 multimodal RAG 更像一个 data pipeline,不只是 model feature。


Tool Integration 的核心是 schema 和 permission

只要接外部工具,就不能只想“能不能调通”。

更该关注:

问题为什么重要
tool schema 是否清晰不清楚就会频繁调用错
domain / DB scope 是否受限防止越权和脏查询
timeout 和 retry 怎么设tool call 很容易拖慢整链路
output 怎么回灌模型避免上下文污染和格式乱掉

多模态系统一旦接 tool,稳定性难度会明显上升。


UX 上别忘了告诉用户系统看到了什么

这点很重要。
很多用户上传文件后,根本不知道系统到底识别了哪些内容。

更好的 multimodal UX 通常会展示:

  • upload status
  • file / duration / page limits
  • extracted summary preview
  • citation 到 page / timestamp
  • error on unsupported input

用户一旦不知道系统“看到了什么”,就很难建立 trust。


测试不能只做文本样本

Multimodal eval 至少要分 modality 做。

测试项为什么要单独测
noisy image / OCR真实图像不会都很干净
noisy audio会议环境常常很差
long video成本和延迟会突然上升
chart / slide understanding很容易看错结构
tool-augmented output一旦接 tool,错误类型更多

只用理想样本测试 multimodal feature,基本等于没测。


最容易被低估的成本

Multimodal 成本不仅是模型调用本身。

还包括:

  • OCR / STT 预处理成本
  • 大文件存储和传输成本
  • 更复杂的日志与排障成本
  • 更高的 eval 和人工 review 成本

如果只预算 LLM 调用价,通常会低估很多。


Practice

拿一个你要做的 multimodal feature,先回答这 4 个问题:

  1. 真实输入是什么 modality
  2. 先转 text 会不会更稳
  3. metadata 要保留哪些字段
  4. citation 和 error UX 怎么展示

这 4 个问题答清楚后,再开始接模型和工具。

📚 相关资源