视觉能力(Vision)
OpenAI 的多模态模型可以理解图像内容,适合做图片理解、OCR 辅助、表格识别等任务。
可以把 Vision 当成“会看图的分析师”。
它不只会说“这张图里有猫”,还可以做结构化抽取、界面问题定位、文档要点总结。
1. 基本示例(Responses API)
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.2",
input=[
{
"role": "user",
"content": [
{"type": "input_text", "text": "图片里有什么?"},
{
"type": "input_image",
"image_url": "https://example.com/image.jpg"
}
]
}
]
)
print(response.output_text)
2. Node.js 示例
import OpenAI from 'openai';
const client = new OpenAI();
const response = await client.responses.create({
model: 'gpt-5.2',
input: [
{
role: 'user',
content: [
{ type: 'input_text', text: '图片里有什么?' },
{ type: 'input_image', image_url: 'https://example.com/image.jpg' }
]
}
]
});
console.log(response.output_text);
3. 典型场景
- 图片内容描述与摘要
- OCR 辅助(识别并结构化文本)
- UI 截图分析与问题定位
读者导向:先落地哪个场景?
- 产品团队:先做 UI 截图分析,快速发现页面可用性问题。
- 运营团队:先做票据/表单 OCR,提升录入效率。
- 工程团队:先做图文问答,再逐步接入业务流程自动化。
4. 注意事项
- 图片必须可公开访问或通过你自己的安全代理提供。
- 大图建议先压缩,减少成本与延迟。
- 对 OCR 结果应做二次校验。
常见误区
- 把 Vision 当“零错误 OCR”:实际应有校验与人工兜底。
- 图片喂得越大越好:大图未必更准,反而更慢更贵。
- 只看一次输出:关键字段建议做二次确认或规则校验。
一句轻松提醒:
Vision 像“眼神很好但偶尔会脑补的实习生”,
适合让它先筛、先读、先标,再由规则或人工做最后拍板。