视觉能力（Vision）

Vision 能力最容易被高估，也最容易真正落地。高估，是因为很多人把它想成“零错误 OCR”；能落地，是因为截图分析、票据读取、表单抽取这些任务，本来就非常适合让模型先看第一遍。

如果你让我给一个很务实的判断：Vision 最适合当“第一道智能筛选”，不适合当“最后一道财务确认”。

1. 先判断这个场景值不值得上 Vision

适合的情况通常有：

你本来就需要人工看图再录入

图片内容里同时有结构和语义

允许模型先做初筛，再由规则或人工复核

如果你的目标是财务级精确识别、完全无误差字段提取，那就不能只靠 Vision 一步到位。这不是它不够强，而是业务容错本来就不允许只看一遍。

2. 基本示例（Responses API）

from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5.2", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "图片里有什么？"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

3. Node.js 示例

import OpenAI from 'openai'; const client = new OpenAI(); const response = await client.responses.create({ model: 'gpt-5.2', input: [ { role: 'user', content: [ { type: 'input_text', text: '图片里有什么？' }, { type: 'input_image', image_url: 'https://example.com/image.jpg' } ] } ] }); console.log(response.output_text);

5. 注意事项

图片必须可公开访问或通过你自己的安全代理提供。

大图建议先压缩，减少成本与延迟。

对 OCR 结果应做二次校验。

OpenAI 官方图像指南还提到一个很实用的点：input_image 可以设置 detail 为 low、high 或 auto。如果你只是做大致内容判断，用 low 往往更省 token；只有在你真的需要细节识别时，再上 high。

这个参数挺值得认真用。很多团队默认全开高细节，最后发现成本上去了，效果却没明显变好。

常见误区

把 Vision 当“零错误 OCR”：实际应有校验与人工兜底。

图片喂得越大越好：大图未必更准，反而更慢更贵。

只看一次输出：关键字段建议做二次确认或规则校验。

一句轻松提醒：
Vision 像“眼神很好但偶尔会脑补的实习生”，
适合让它先筛、先读、先标，再由规则或人工做最后拍板。

视觉能力（Vision）

如果你让我给一个很务实的判断：Vision 最适合当“第一道智能筛选”，不适合当“最后一道财务确认”。

#1. 先判断这个场景值不值得上 Vision

适合的情况通常有：

你本来就需要人工看图再录入
图片内容里同时有结构和语义
允许模型先做初筛，再由规则或人工复核

如果你的目标是财务级精确识别、完全无误差字段提取，那就不能只靠 Vision 一步到位。这不是它不够强，而是业务容错本来就不允许只看一遍。

#2. 基本示例（Responses API）

python
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.2",
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "图片里有什么？"},
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image.jpg"
                }
            ]
        }
    ]
)

print(response.output_text)

#3. Node.js 示例

ts
import OpenAI from 'openai';

const client = new OpenAI();

const response = await client.responses.create({
  model: 'gpt-5.2',
  input: [
    {
      role: 'user',
      content: [
        { type: 'input_text', text: '图片里有什么？' },
        { type: 'input_image', image_url: 'https://example.com/image.jpg' }
      ]
    }
  ]
});

console.log(response.output_text);

#4. 典型场景

图片内容描述与摘要
OCR 辅助（识别并结构化文本）
UI 截图分析与问题定位

#读者导向：先落地哪个场景？

产品团队：先做 UI 截图分析，快速发现页面可用性问题。
运营团队：先做票据/表单 OCR，提升录入效率。
工程团队：先做图文问答，再逐步接入业务流程自动化。

#5. 注意事项

图片必须可公开访问或通过你自己的安全代理提供。
大图建议先压缩，减少成本与延迟。
对 OCR 结果应做二次校验。

这个参数挺值得认真用。很多团队默认全开高细节，最后发现成本上去了，效果却没明显变好。

#常见误区

把 Vision 当“零错误 OCR”：实际应有校验与人工兜底。
图片喂得越大越好：大图未必更准，反而更慢更贵。
只看一次输出：关键字段建议做二次确认或规则校验。

一句轻松提醒：
Vision 像“眼神很好但偶尔会脑补的实习生”，
适合让它先筛、先读、先标，再由规则或人工做最后拍板。

视觉能力（Vision）

1. 先判断这个场景值不值得上 Vision

2. 基本示例（Responses API）

3. Node.js 示例

4. 典型场景

读者导向：先落地哪个场景？

5. 注意事项

常见误区

参考资料

OpenAI API 开发指南

视觉能力（Vision）

#1. 先判断这个场景值不值得上 Vision

#2. 基本示例（Responses API）

#3. Node.js 示例

#4. 典型场景

#读者导向：先落地哪个场景？

#5. 注意事项

#常见误区

#参考资料

系统设计必备：核心概念 + 经典案例

相关指南

相关路线图