视觉能力(Vision)
OpenAI 的多模态模型可以理解图像内容,适合做图片理解、OCR 辅助、表格识别等任务。
#1. 基本示例(Responses API)
pythonfrom openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5.2", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "图片里有什么?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)
#2. Node.js 示例
tsimport OpenAI from 'openai'; const client = new OpenAI(); const response = await client.responses.create({ model: 'gpt-5.2', input: [ { role: 'user', content: [ { type: 'input_text', text: '图片里有什么?' }, { type: 'input_image', image_url: 'https://example.com/image.jpg' } ] } ] }); console.log(response.output_text);
#3. 典型场景
- 图片内容描述与摘要
- OCR 辅助(识别并结构化文本)
- UI 截图分析与问题定位
#4. 注意事项
- 图片必须可公开访问或通过你自己的安全代理提供。
- 大图建议先压缩,减少成本与延迟。
- 对 OCR 结果应做二次校验。