logo
OpenAI API 开发指南
AI Engineer

OpenAI API 开发指南

OpenAI API 是最广泛使用的 AI API 之一,提供 GPT-4、DALL-E、Whisper 等模型的访问。

OpenAI API 开发指南视觉能力

视觉能力(Vision)

OpenAI 的多模态模型可以理解图像内容,适合做图片理解、OCR 辅助、表格识别等任务。

视觉理解示意
视觉理解示意

#1. 基本示例(Responses API)

python
from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-5.2", input=[ { "role": "user", "content": [ {"type": "input_text", "text": "图片里有什么?"}, { "type": "input_image", "image_url": "https://example.com/image.jpg" } ] } ] ) print(response.output_text)

#2. Node.js 示例

ts
import OpenAI from 'openai'; const client = new OpenAI(); const response = await client.responses.create({ model: 'gpt-5.2', input: [ { role: 'user', content: [ { type: 'input_text', text: '图片里有什么?' }, { type: 'input_image', image_url: 'https://example.com/image.jpg' } ] } ] }); console.log(response.output_text);

#3. 典型场景

  • 图片内容描述与摘要
  • OCR 辅助(识别并结构化文本)
  • UI 截图分析与问题定位

#4. 注意事项

  • 图片必须可公开访问或通过你自己的安全代理提供。
  • 大图建议先压缩,减少成本与延迟。
  • 对 OCR 结果应做二次校验。

#参考资料

相关路线图