多模态与工具链

⏱️ 40分钟

Multimodal Tooling

Multimodal AI 最容易被做成“什么都能传”的 feature，但真正上线时问题很多：图像理解不稳、OCR 成本高、视频太慢、audio pipeline 难管、tool schema 一复杂就容易炸。AI engineer 真正要做的，不是把 modality 加得越多越好，而是把每一种 modality 变成可控的 product capability。

所以这页讲的不是模型列表，而是 multimodal tooling 应该怎么选、怎么接、怎么控。

Multimodal Tooling Matrix

先说结论：先拆 modality，再选工具

很多 team 一看到支持 vision / audio / video 的模型，就想“一把梭”。
更稳的顺序应该是：

明确你要处理哪种输入
判断是直接多模态理解，还是先转成 text
再决定用通用模型还是专用工具

不是所有 multimodal task 都该直接交给一个大模型做。

不同 Modality，工程问题完全不同

Modality	常见任务	工程重点
image	OCR、caption、UI understanding、chart Q&A	resolution、OCR quality、region reference
audio	STT、meeting note、TTS	noise、speaker、chunk、timestamp
video	transcript、scene summary、event extraction	frame sampling、长时长、成本
files	PDF、slides、spreadsheet、repo	parsing、metadata、page mapping
tools	web search、DB query、code exec	schema、permission、latency、safety

如果你把这些问题当成一类处理，后面很容易又贵又不稳。

一个更现实的工具选择逻辑

场景	更稳的方案
简单图片理解	vision-capable LLM
高质量 OCR	先 OCR，再交给 text LLM
meeting transcript	先 STT，再做 summary / action item
长视频分析	transcript + scene summary，而不是逐帧硬喂
结构化图表理解	专用解析 + LLM 解释

很多 multimodal 系统真正跑得稳，是因为先做 preprocessing，而不是直接把原始输入丢给模型。

Metadata 是 multimodal 系统的命根子

一旦进入图片、音频、视频、PDF，metadata 就变得非常关键。

最少要保留：

filename / source id
page / frame / timestamp
chunk order
extraction method
confidence if available

没有这些，后面 citation、review、debugging 都会变得非常困难。

Multimodal RAG，不是把文件扔进向量库就结束

更靠谱的做法通常是：

extract text / OCR / transcript
  -> add metadata
  -> embed/index
  -> retrieve by source-aware chunks
  -> generate with citations

尤其是 image 和 video，真正可检索的常常不是原始像素，而是：

OCR text
caption
scene summary
timestamped transcript

这也是为什么 multimodal RAG 更像一个 data pipeline，不只是 model feature。

Tool Integration 的核心是 schema 和 permission

只要接外部工具，就不能只想“能不能调通”。

更该关注：

问题	为什么重要
tool schema 是否清晰	不清楚就会频繁调用错
domain / DB scope 是否受限	防止越权和脏查询
timeout 和 retry 怎么设	tool call 很容易拖慢整链路
output 怎么回灌模型	避免上下文污染和格式乱掉

多模态系统一旦接 tool，稳定性难度会明显上升。

UX 上别忘了告诉用户系统看到了什么

这点很重要。
很多用户上传文件后，根本不知道系统到底识别了哪些内容。

更好的 multimodal UX 通常会展示：

upload status
file / duration / page limits
extracted summary preview
citation 到 page / timestamp
error on unsupported input

用户一旦不知道系统“看到了什么”，就很难建立 trust。

测试不能只做文本样本

Multimodal eval 至少要分 modality 做。

测试项	为什么要单独测
noisy image / OCR	真实图像不会都很干净
noisy audio	会议环境常常很差
long video	成本和延迟会突然上升
chart / slide understanding	很容易看错结构
tool-augmented output	一旦接 tool，错误类型更多

只用理想样本测试 multimodal feature，基本等于没测。

最容易被低估的成本

Multimodal 成本不仅是模型调用本身。

还包括：

OCR / STT 预处理成本
大文件存储和传输成本
更复杂的日志与排障成本
更高的 eval 和人工 review 成本

如果只预算 LLM 调用价，通常会低估很多。

Practice

拿一个你要做的 multimodal feature，先回答这 4 个问题：

真实输入是什么 modality
先转 text 会不会更稳
metadata 要保留哪些字段
citation 和 error UX 怎么展示

这 4 个问题答清楚后，再开始接模型和工具。

📚 相关资源

Gemini API 快速上手