logo

Claude API 视觉能力

Claude 的视觉能力很适合“先看一遍、先做初判”的工作,比如图表解读、截图分析、文档抽取和界面评审。真正上线时,别把它当零误差 OCR,更稳的做法还是模型先读、规则再校、必要时人工兜底。

Claude 标识

1. 支持的图片格式

  • 文件类型:JPEG, PNG, GIF, WebP。
  • 数量限制:Anthropic vision 文档写的是 API 单次请求最多支持 100 张图片,但标准端点整体仍有 32MB 请求大小限制。
  • 尺寸限制:超过 8000 x 8000 的图片会被拒绝;如果一次提交超过 20 张图,单图限制会更严格。

2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

import base64
import anthropic

client = anthropic.Anthropic()

# 读取图片并编码
with open("chart.png", "rb") as image_file:
    image_data = base64.b64encode(image_file.read()).decode("utf-8")

message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "请分析这张图表中的趋势并总结三个关键点。"
                }
            ],
        }
    ],
)
print(message.content[0].text)

3. 核心应用场景

A. 文档识别 (OCR 增强)

不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"

B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。

C. UI/UX 评审

前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

D. 视觉查错

上传报错页面的截图,让 Claude 结合代码库分析可能的原因。

读者导向:从哪个场景先开始

  1. 先做 OCR 增强(价值直观、上线快)。
  2. 再做图表分析(适合运营/财务报告自动解读)。
  3. 最后做 UI 评审和视觉查错(需要更强上下文联动)。

4. 视觉提示词建议

  1. 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
  2. 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
  3. 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。

5. 局限性

  • 人脸识别:Claude 无法识别特定真实人物的身份。
  • 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
  • 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。

Anthropic 官方还提了一个很实用的性能建议:如果图片长边超过 1568 像素,系统通常会先缩放。也就是说,盲目上传超大图不一定更准,反而更慢。

一句轻松提醒:
Vision 很像“观察力很强但偶尔会脑补的同事”,
关键字段要二次校验,别直接进关键业务流程。

官方参考

Claude API Guide
AI Engineer

Claude API Guide

Build with the Claude API for messages, streaming, multimodal input, and production integrations.

Claude API GuideVision

Claude API 视觉能力

Claude 的视觉能力很适合“先看一遍、先做初判”的工作,比如图表解读、截图分析、文档抽取和界面评审。真正上线时,别把它当零误差 OCR,更稳的做法还是模型先读、规则再校、必要时人工兜底。

Claude 标识
Claude 标识

#1. 支持的图片格式

  • 文件类型:JPEG, PNG, GIF, WebP。
  • 数量限制:Anthropic vision 文档写的是 API 单次请求最多支持 100 张图片,但标准端点整体仍有 32MB 请求大小限制。
  • 尺寸限制:超过 8000 x 8000 的图片会被拒绝;如果一次提交超过 20 张图,单图限制会更严格。

#2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

python
import base64 import anthropic client = anthropic.Anthropic() # 读取图片并编码 with open("chart.png", "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode("utf-8") message = client.messages.create( model="claude-3-5-sonnet-20240620", max_tokens=1024, messages=[ { "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/png", "data": image_data, }, }, { "type": "text", "text": "请分析这张图表中的趋势并总结三个关键点。" } ], } ], ) print(message.content[0].text)

#3. 核心应用场景

#A. 文档识别 (OCR 增强)

不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"

#B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。

#C. UI/UX 评审

前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

#D. 视觉查错

上传报错页面的截图,让 Claude 结合代码库分析可能的原因。

#读者导向:从哪个场景先开始

  1. 先做 OCR 增强(价值直观、上线快)。
  2. 再做图表分析(适合运营/财务报告自动解读)。
  3. 最后做 UI 评审和视觉查错(需要更强上下文联动)。

#4. 视觉提示词建议

  1. 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
  2. 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
  3. 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。

#5. 局限性

  • 人脸识别:Claude 无法识别特定真实人物的身份。
  • 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
  • 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。

Anthropic 官方还提了一个很实用的性能建议:如果图片长边超过 1568 像素,系统通常会先缩放。也就是说,盲目上传超大图不一定更准,反而更慢。

一句轻松提醒:
Vision 很像“观察力很强但偶尔会脑补的同事”,
关键字段要二次校验,别直接进关键业务流程。

#官方参考

System Design

Core system design concepts and practical case studies

Learn the trade-offs and patterns that matter in technical interviews.

Open System Design →

Related Roadmaps