logo

Vision with OpenAI API

Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单初筛、图文问答这类任务,本来就非常适合让模型先看第一遍。

更务实的定位

Vision 更适合当“第一道智能筛选”,不适合当“最后一道财务确认”。

适合的情况通常有:

  • 本来就需要人工看图再录入
  • 图片里同时有结构和语义
  • 允许模型先做初筛,再由规则或人工复核

Responses API 里的基本写法

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5",
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image?"},
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image.jpg"
                }
            ]
        }
    ]
)

print(response.output_text)

图片输入可以怎么传

按官方 vision guide,你可以通过:

  • image URL
  • Base64-encoded data URL
  • file ID

把图片传给模型。

detail 参数什么时候值得用

input_image 支持 detail: "low" | "high" | "auto"

  • low:更省 token,更适合大致判断内容
  • high:更适合细节识别
  • auto:让模型自己决定

如果你只是做大致分类或描述,low 往往更省成本;只有在确实需要细节时,再上 high

常见误区

  • 把 Vision 当零错误 OCR
  • 图片越大越好
  • 只看一次输出,不做规则或人工复核
OpenAI API Guide
AI Engineer

OpenAI API Guide

Build with the OpenAI API using Responses API, streaming, tools, embeddings, and multimodal inputs.

OpenAI API GuideVision

Vision with OpenAI API

Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单初筛、图文问答这类任务,本来就非常适合让模型先看第一遍。

#更务实的定位

Vision 更适合当“第一道智能筛选”,不适合当“最后一道财务确认”。

适合的情况通常有:

  • 本来就需要人工看图再录入
  • 图片里同时有结构和语义
  • 允许模型先做初筛,再由规则或人工复核

#Responses API 里的基本写法

python
from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "What is in this image?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

#图片输入可以怎么传

按官方 vision guide,你可以通过:

  • image URL
  • Base64-encoded data URL
  • file ID

把图片传给模型。

#detail 参数什么时候值得用

input_image 支持 detail: "low" | "high" | "auto"

  • low:更省 token,更适合大致判断内容
  • high:更适合细节识别
  • auto:让模型自己决定

如果你只是做大致分类或描述,low 往往更省成本;只有在确实需要细节时,再上 high

#常见误区

  • 把 Vision 当零错误 OCR
  • 图片越大越好
  • 只看一次输出,不做规则或人工复核
System Design

Core system design concepts and practical case studies

Learn the trade-offs and patterns that matter in technical interviews.

Open System Design →

Related Roadmaps