logo

Claude API 视觉能力

Claude 3 系列模型(Sonnet, Opus, Haiku)均原生支持视觉识别。你可以向 Claude 发送图片并询问关于图片的问题。

可以把它理解为“会读图的分析助理”:
不仅能识别内容,还能结合任务目标做摘要、对比和结构化提取。

1. 支持的图片格式

  • 文件类型:JPEG, PNG, GIF, WebP。
  • 大小限制:单张图片最大 5MB
  • 数量限制:单次请求最多支持 20 张图片。

2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

import base64
import anthropic

client = anthropic.Anthropic()

# 读取图片并编码
with open("chart.png", "rb") as image_file:
    image_data = base64.b64encode(image_file.read()).decode("utf-8")

message = client.messages.create(
    model="claude-3-5-sonnet-20240620",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": image_data,
                    },
                },
                {
                    "type": "text",
                    "text": "请分析这张图表中的趋势并总结三个关键点。"
                }
            ],
        }
    ],
)
print(message.content[0].text)

3. 核心应用场景

A. 文档识别 (OCR 增强)

不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"

B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。

C. UI/UX 评审

前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

D. 视觉查错

上传报错页面的截图,让 Claude 结合代码库分析可能的原因。

读者导向:从哪个场景先开始

  1. 先做 OCR 增强(价值直观、上线快)。
  2. 再做图表分析(适合运营/财务报告自动解读)。
  3. 最后做 UI 评审和视觉查错(需要更强上下文联动)。

4. 视觉提示词建议

  1. 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
  2. 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
  3. 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。

5. 局限性

  • 人脸识别:Claude 无法识别特定真实人物的身份。
  • 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
  • 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。

一句轻松提醒:
Vision 很像“观察力很强但偶尔会脑补的同事”,
关键字段要二次校验,别直接进关键业务流程。


小贴士:Claude 3.5 Sonnet 的视觉速度非常快,非常适合实时视频流分析或高频图像识别任务。

Claude API 开发指南
AI Engineer

Claude API 开发指南

Anthropic Claude API 提供了强大的 AI 模型访问,以安全性和准确性著称,适合企业级应用。

Claude API 开发指南视觉能力

Claude API 视觉能力

Claude 3 系列模型(Sonnet, Opus, Haiku)均原生支持视觉识别。你可以向 Claude 发送图片并询问关于图片的问题。

可以把它理解为“会读图的分析助理”:
不仅能识别内容,还能结合任务目标做摘要、对比和结构化提取。

#1. 支持的图片格式

  • 文件类型:JPEG, PNG, GIF, WebP。
  • 大小限制:单张图片最大 5MB
  • 数量限制:单次请求最多支持 20 张图片。

#2. API 调用示例 (Python)

你需要将图片转换为 Base64 编码后再发送。

python
import base64 import anthropic client = anthropic.Anthropic() # 读取图片并编码 with open("chart.png", "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode("utf-8") message = client.messages.create( model="claude-3-5-sonnet-20240620", max_tokens=1024, messages=[ { "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/png", "data": image_data, }, }, { "type": "text", "text": "请分析这张图表中的趋势并总结三个关键点。" } ], } ], ) print(message.content[0].text)

#3. 核心应用场景

#A. 文档识别 (OCR 增强)

不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。

"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"

#B. 图表分析

Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。

#C. UI/UX 评审

前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。

#D. 视觉查错

上传报错页面的截图,让 Claude 结合代码库分析可能的原因。

#读者导向:从哪个场景先开始

  1. 先做 OCR 增强(价值直观、上线快)。
  2. 再做图表分析(适合运营/财务报告自动解读)。
  3. 最后做 UI 评审和视觉查错(需要更强上下文联动)。

#4. 视觉提示词建议

  1. 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
  2. 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
  3. 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。

#5. 局限性

  • 人脸识别:Claude 无法识别特定真实人物的身份。
  • 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
  • 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。

一句轻松提醒:
Vision 很像“观察力很强但偶尔会脑补的同事”,
关键字段要二次校验,别直接进关键业务流程。


小贴士:Claude 3.5 Sonnet 的视觉速度非常快,非常适合实时视频流分析或高频图像识别任务。

System Design

系统设计必备:核心概念 + 经典案例

快速掌握取舍与设计套路,备战系统设计面试。

进入 System Design →

相关路线图