logo

Vision with OpenAI API

Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单初筛、图文问答这类任务,本来就非常适合让模型先看第一遍。

更务实的定位

Vision 更适合当“第一道智能筛选”,不适合当“最后一道财务确认”。

适合的情况通常有:

  • 本来就需要人工看图再录入
  • 图片里同时有结构和语义
  • 允许模型先做初筛,再由规则或人工复核

Responses API 里的基本写法

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5",
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image?"},
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image.jpg"
                }
            ]
        }
    ]
)

print(response.output_text)

图片输入可以怎么传

按官方 vision guide,你可以通过:

  • image URL
  • Base64-encoded data URL
  • file ID

把图片传给模型。

detail 参数什么时候值得用

input_image 支持 detail: "low" | "high" | "auto"

  • low:更省 token,更适合大致判断内容
  • high:更适合细节识别
  • auto:让模型自己决定

如果你只是做大致分类或描述,low 往往更省成本;只有在确实需要细节时,再上 high

常见误区

  • 把 Vision 当零错误 OCR
  • 图片越大越好
  • 只看一次输出,不做规则或人工复核
OpenAI API 开发指南
AI Engineer

OpenAI API 开发指南

OpenAI API 是最广泛使用的 AI API 之一,提供 GPT-4、DALL-E、Whisper 等模型的访问。

OpenAI API 开发指南视觉能力

Vision with OpenAI API

Vision 能力最容易被高估,也最容易真正落地。高估,是因为很多人把它想成“零错误 OCR”;能落地,是因为截图分析、票据读取、表单初筛、图文问答这类任务,本来就非常适合让模型先看第一遍。

#更务实的定位

Vision 更适合当“第一道智能筛选”,不适合当“最后一道财务确认”。

适合的情况通常有:

  • 本来就需要人工看图再录入
  • 图片里同时有结构和语义
  • 允许模型先做初筛,再由规则或人工复核

#Responses API 里的基本写法

python
from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "What is in this image?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

#图片输入可以怎么传

按官方 vision guide,你可以通过:

  • image URL
  • Base64-encoded data URL
  • file ID

把图片传给模型。

#detail 参数什么时候值得用

input_image 支持 detail: "low" | "high" | "auto"

  • low:更省 token,更适合大致判断内容
  • high:更适合细节识别
  • auto:让模型自己决定

如果你只是做大致分类或描述,low 往往更省成本;只有在确实需要细节时,再上 high

#常见误区

  • 把 Vision 当零错误 OCR
  • 图片越大越好
  • 只看一次输出,不做规则或人工复核
System Design

系统设计必备:核心概念 + 经典案例

快速掌握取舍与设计套路,备战系统设计面试。

进入 System Design →

相关路线图