Vision with OpenAI API
Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单初筛、图文问答这类任务,本来就非常适合让模型先看第一遍。
更务实的定位
Vision 更适合当“第一道智能筛选”,不适合当“最后一道财务确认”。
适合的情况通常有:
- 本来就需要人工看图再录入
- 图片里同时有结构和语义
- 允许模型先做初筛,再由规则或人工复核
Responses API 里的基本写法
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5",
input=[
{
"role": "user",
"content": [
{"type": "input_text", "text": "What is in this image?"},
{
"type": "input_image",
"image_url": "https://example.com/image.jpg"
}
]
}
]
)
print(response.output_text)
图片输入可以怎么传
按官方 vision guide,你可以通过:
- image URL
- Base64-encoded data URL
- file ID
把图片传给模型。
detail 参数什么时候值得用
input_image 支持 detail: "low" | "high" | "auto"。
low:更省 token,更适合大致判断内容high:更适合细节识别auto:让模型自己决定
如果你只是做大致分类或描述,low 往往更省成本;只有在确实需要细节时,再上 high。
常见误区
- 把 Vision 当零错误 OCR
- 图片越大越好
- 只看一次输出,不做规则或人工复核