视觉能力(Vision)
Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单抽取这些任务,本来就非常适合让模型先看第一遍。
如果你让我给一个很务实的判断:Vision 最适合当“第一道智能筛选”,不适合当“最后一道财务确认”。
1. 先判断这个场景值不值得上 Vision
适合的情况通常有:
- 你本来就需要人工看图再录入
- 图片内容里同时有结构和语义
- 允许模型先做初筛,再由规则或人工复核
如果你的目标是财务级精确识别、完全无误差字段提取,那就不能只靠 Vision 一步到位。这不是它不够强,而是业务容错本来就不允许只看一遍。
2. 基本示例(Responses API)
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.2",
input=[
{
"role": "user",
"content": [
{"type": "input_text", "text": "图片里有什么?"},
{
"type": "input_image",
"image_url": "https://example.com/image.jpg"
}
]
}
]
)
print(response.output_text)
3. Node.js 示例
import OpenAI from 'openai';
const client = new OpenAI();
const response = await client.responses.create({
model: 'gpt-5.2',
input: [
{
role: 'user',
content: [
{ type: 'input_text', text: '图片里有什么?' },
{ type: 'input_image', image_url: 'https://example.com/image.jpg' }
]
}
]
});
console.log(response.output_text);
4. 典型场景
- 图片内容描述与摘要
- OCR 辅助(识别并结构化文本)
- UI 截图分析与问题定位
读者导向:先落地哪个场景?
- 产品团队:先做 UI 截图分析,快速发现页面可用性问题。
- 运营团队:先做票据/表单 OCR,提升录入效率。
- 工程团队:先做图文问答,再逐步接入业务流程自动化。
5. 注意事项
- 图片必须可公开访问或通过你自己的安全代理提供。
- 大图建议先压缩,减少成本与延迟。
- 对 OCR 结果应做二次校验。
OpenAI 官方图像指南还提到一个很实用的点:input_image 可以设置 detail 为 low、high 或 auto。如果你只是做大致内容判断,用 low 往往更省 token;只有在你真的需要细节识别时,再上 high。
这个参数挺值得认真用。很多团队默认全开高细节,最后发现成本上去了,效果却没明显变好。
常见误区
- 把 Vision 当“零错误 OCR”:实际应有校验与人工兜底。
- 图片喂得越大越好:大图未必更准,反而更慢更贵。
- 只看一次输出:关键字段建议做二次确认或规则校验。
一句轻松提醒:
Vision 像“眼神很好但偶尔会脑补的实习生”,
适合让它先筛、先读、先标,再由规则或人工做最后拍板。