logo
Claude API 开发指南
AI Engineer

Claude API 开发指南

Anthropic Claude API 提供了强大的 AI 模型访问,以安全性和准确性著称,适合企业级应用。

Claude API 开发指南视觉能力

Claude API 视觉能力

Claude 3 系列模型(Sonnet, Opus, Haiku)均原生支持视觉识别。你可以向 Claude 发送图片并询问关于图片的问题。

#1. 支持的图片格式

  • 文件类型:JPEG, PNG, GIF, WebP。
  • 大小限制:单张图片最大 5MB
  • 数量限制:单次请求最多支持 20 张图片。

#2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

python
import base64 import anthropic client = anthropic.Anthropic() # 读取图片并编码 with open("chart.png", "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode("utf-8") message = client.messages.create( model="claude-3-5-sonnet-20240620", max_tokens=1024, messages=[ { "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/png", "data": image_data, }, }, { "type": "text", "text": "请分析这张图表中的趋势并总结三个关键点。" } ], } ], ) print(message.content[0].text)

#3. 核心应用场景

#A. 文档识别 (OCR 增强)

不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"

#B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。

#C. UI/UX 评审

前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

#D. 视觉查错

上传报错页面的截图,让 Claude 结合代码库分析可能的原因。

#4. 视觉提示词建议

  1. 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
  2. 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
  3. 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。

#5. 局限性

  • 人脸识别:Claude 无法识别特定真实人物的身份。
  • 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
  • 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。

小贴士:Claude 3.5 Sonnet 的视觉速度非常快,非常适合实时视频流分析或高频图像识别任务。

相关路线图