logo
12

AI 多模态输入与解析

⏱️ 20分钟

AI 多模态办公:不仅仅是“文字提取”

办公场景中,大量信息藏在纸质合同、白板草图、报表截图里。AI 的多模态能力(Vision)如果只用来做 OCR(文字识别)就太浪费了。它的核心价值是:读懂视觉背后的逻辑


1) 白板草图:从“照片”到“可运行架构”

开会时在白板上随手画的业务流程,以前需要人肉整理成文档。现在,你可以直接把照片喂给 AI。

🚀 实战技巧:视觉逻辑转化

拍一张手绘流程图:

专家版 Prompt

你是系统架构师。请分析这张白板照片。
任务:
1. 识别出图中所有的【业务角色】(矩形)和【决策节点】(菱形)。
2. 将这个流程转化成 Mermaid Flowchart 代码(你可以直接在 GitHub/Notion 渲染)。
3. 逻辑诊断:基于你的理解,这个流程是否存在“死循环”或“缺少异常处理”的情况?
请以“架构图代码 -> 逻辑说明 -> 改进建议”格式输出。

2) 复杂报表解析:干掉“人肉搬运”

面对一张 PDF 或网页截图里的复杂表格,手动录入 Excel 极易出错。

💡 场景模拟:对比三份供应商报价单截图

提升 Prompt

这是一张包含 15 行、8 列的复杂报表截图。
任务:
1. 请提取图中所有的数字,并以 Markdown 表格形式还原。
2. 校验逻辑:请横向计算每一行的“单价 x 数量”是否等于“总价”。如果不等于,请在表格中用红色(或加粗)标注。
3. 深度分析:这几份报价中,单价波动最大的是哪一项?
注意:如果你对某个数字不确定(如由于水印遮挡),请输出 [?] 而不要编造。

3) 截图驱动的任务:把视觉变成“Prompt 语料”

当你看到一个很棒的网页设计或文档模板时,可以直接“截给”AI。

实战示例:

  • 文案模仿:截一张竞品的爆款海报。“请分析这张海报的视觉重心和文案排版逻辑,并为我的新功能写一个类似的草案。”
  • UI 还原:截一张后台管理界面的图。“请根据这个截图的布局,用 React + Tailwind CSS 写出它的静态前端代码。”

4) 避坑指南:眼睛也会骗人

风险点表现解决方案
数字幻觉对于 0 和 8,或 1 和 l,视觉模型有时会看错关键数据必须要求 AI 进行“自洽性校验”(如总计求和)。
隐私泄漏截图角落可能包含浏览器书签、系统通知等隐私截图前开启隐私模式,或使用局部截图,不要截全屏。
空间感缺失AI 对图中元素的“相对位置”描述有时不准如果涉及精密设计,建议配合文字描述辅助。

5) 动手练习

任务:找一张你工作中遇到过的最复杂的 Excel 截图。

  1. 让 AI 将其转化为 Markdown 格式。
  2. 要求它:基于这些数据,生成 3 条具有洞察力的结论。
  3. 让它:为你推荐一个最适合展示这些数据的图表类型(饼图、柱状图还是漏斗图?)。