1. 支持的图片格式

文件类型：JPEG, PNG, GIF, WebP。

数量限制：Anthropic vision 文档写的是 API 单次请求最多支持 100 张图片，但标准端点整体仍有 32MB 请求大小限制。

尺寸限制：超过 8000 x 8000 的图片会被拒绝；如果一次提交超过 20 张图，单图限制会更严格。

2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

import base64 import anthropic client = anthropic.Anthropic() # 读取图片并编码 with open("chart.png", "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode("utf-8") message = client.messages.create( model="claude-3-5-sonnet-20240620", max_tokens=1024, messages=[ { "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/png", "data": image_data, }, }, { "type": "text", "text": "请分析这张图表中的趋势并总结三个关键点。" } ], } ], ) print(message.content[0].text)

3. 核心应用场景

A. 文档识别 (OCR 增强)

不同于传统的 OCR，Claude 可以理解文档的结构、含义和逻辑，甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细，并输出 JSON 格式。"

B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图，并能进行逻辑推导。

C. UI/UX 评审

前端开发者可以上传网页截图，让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

D. 视觉查错

上传报错页面的截图，让 Claude 结合代码库分析可能的原因。

5. 局限性

人脸识别：Claude 无法识别特定真实人物的身份。

极小文本：如果图片分辨率过低，识别极小文字可能会出错。

坐标定位：虽然可以感知空间关系，但精准到像素级别的定位有时会有偏差。

Anthropic 官方还提了一个很实用的性能建议：如果图片长边超过 1568 像素，系统通常会先缩放。也就是说，盲目上传超大图不一定更准，反而更慢。

一句轻松提醒：
Vision 很像“观察力很强但偶尔会脑补的同事”，
关键字段要二次校验，别直接进关键业务流程。

Claude API 视觉能力

Claude 的视觉能力很适合“先看一遍、先做初判”的工作，比如图表解读、截图分析、文档抽取和界面评审。真正上线时，别把它当零误差 OCR，更稳的做法还是模型先读、规则再校、必要时人工兜底。

#1. 支持的图片格式

文件类型：JPEG, PNG, GIF, WebP。
数量限制：Anthropic vision 文档写的是 API 单次请求最多支持 100 张图片，但标准端点整体仍有 32MB 请求大小限制。
尺寸限制：超过 8000 x 8000 的图片会被拒绝；如果一次提交超过 20 张图，单图限制会更严格。

#2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

python
import base64
import anthropic

client = anthropic.Anthropic()

# 读取图片并编码
with open("chart.png", "rb") as image_file:
    image_data = base64.b64encode(image_file.read()).decode("utf-8")

message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "请分析这张图表中的趋势并总结三个关键点。"
                }
            ],
        }
    ],
)
print(message.content[0].text)

#3. 核心应用场景

#A. 文档识别 (OCR 增强)

不同于传统的 OCR，Claude 可以理解文档的结构、含义和逻辑，甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细，并输出 JSON 格式。"

#B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图，并能进行逻辑推导。

#C. UI/UX 评审

前端开发者可以上传网页截图，让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

#D. 视觉查错

上传报错页面的截图，让 Claude 结合代码库分析可能的原因。

#读者导向：从哪个场景先开始

先做 OCR 增强（价值直观、上线快）。
再做图表分析（适合运营/财务报告自动解读）。
最后做 UI 评审和视觉查错（需要更强上下文联动）。

#4. 视觉提示词建议

精确描述需求：如果你需要特定的坐标或数值，请明确指出。
结合上下文：同时提供相关的文字背景信息会显著提高准确度。
多图对比：如果你想比较两张图的不同，请在一次请求中同时上传它们。

#5. 局限性

人脸识别：Claude 无法识别特定真实人物的身份。
极小文本：如果图片分辨率过低，识别极小文字可能会出错。
坐标定位：虽然可以感知空间关系，但精准到像素级别的定位有时会有偏差。

Anthropic 官方还提了一个很实用的性能建议：如果图片长边超过 1568 像素，系统通常会先缩放。也就是说，盲目上传超大图不一定更准，反而更慢。

一句轻松提醒：
Vision 很像“观察力很强但偶尔会脑补的同事”，
关键字段要二次校验，别直接进关键业务流程。

#官方参考

Vision guide: https://docs.anthropic.com/en/docs/build-with-claude/vision↗

Claude API 视觉能力

1. 支持的图片格式

2. API 调用示例 (Python)

3. 核心应用场景

A. 文档识别 (OCR 增强)

B. 图表分析

C. UI/UX 评审

D. 视觉查错

读者导向：从哪个场景先开始

4. 视觉提示词建议

5. 局限性

官方参考

Claude API Guide

Claude API 视觉能力

#1. 支持的图片格式

#2. API 调用示例 (Python)

#3. 核心应用场景

#A. 文档识别 (OCR 增强)

#B. 图表分析

#C. UI/UX 评审

#D. 视觉查错

#读者导向：从哪个场景先开始

#4. 视觉提示词建议

#5. 局限性

#官方参考

Core system design concepts and practical case studies

Related Guides

Related Roadmaps