logo
12

AI 多模态输入与解析

⏱️ 20分钟

很多办公场景是“截图/扫描/PDF/图片”而不是纯文本。多模态模型能直接读图、表格、示意图,省去手抄。

1) 常见输入方式

  • 截图/白板照片:用 GPT-4o / Claude 3 / Gemini 直接读,要求输出文字 + 结构化字段。
  • PDF/长文档:用“文件上传 + 位置引用”模式,让 AI 标注页码/段落,便于核验。
  • 表格图片:让 AI 抽取成 CSV/JSON,同时列出可能的 OCR 误差。

2) 结构化输出提示

这是一张(或一份)截图/图片/PDF,内容是【简述场景】。
请提取为 JSON:
{
  "标题": "",
  "日期": "",
  "参与人": [],
  "要点": ["", ""],
  "待办": [{"事项": "", "负责人": "", "截止时间": ""}]
}
如果字段缺失请填 null,不要编造。标明你不确定的部分。

3) 视觉理解的增值玩法

  • 图表解读:让 AI 判读图表类型、关键趋势、异常点,并给出“1 句话结论 + 3 条行动建议”。
  • 表格/截图 → 文档:让 AI 生成会议纪要、需求列表、采购清单。
  • 图片生成文字:海报/宣传物料截图 → AI 输出“文案 + 设计要素”供改写。

4) 风险控制

  • OCR 不确定时,让 AI 标出“低置信度字段”;对金额/日期必须人工核对。
  • 涉及敏感文件时,使用企业版模型或私有部署,不要上传到公共入口。
  • 对外共享前,让 AI 扫描“隐私信息/水印/机密标记”,提醒是否需要打码。

5) 工具小贴士

  • 桌面截图 + 快捷上传:Raycast/ShareX/截图工具直传到 AI 对话。
  • PDF 分段:超长 PDF 先拆页或按章节上传,分段摘要再合并,减少遗漏。
  • 如果模型支持“引用”,在输出里要求保留引用链接/页码,方便跳转。

6) 练习

用手机拍一张白板或手写会议记录,让 AI 输出“摘要 + 待办 + 需人工确认的点”,再让它生成一封对外同步邮件。*** End Patch