Claude API 视觉能力
Claude 3 系列模型(Sonnet, Opus, Haiku)均原生支持视觉识别。你可以向 Claude 发送图片并询问关于图片的问题。
可以把它理解为“会读图的分析助理”:
不仅能识别内容,还能结合任务目标做摘要、对比和结构化提取。
1. 支持的图片格式
- 文件类型:JPEG, PNG, GIF, WebP。
- 大小限制:单张图片最大 5MB。
- 数量限制:单次请求最多支持 20 张图片。
2. API 调用示例 (Python)
你需要将图片转换为 Base64 编码后再发送。
import base64
import anthropic
client = anthropic.Anthropic()
# 读取图片并编码
with open("chart.png", "rb") as image_file:
image_data = base64.b64encode(image_file.read()).decode("utf-8")
message = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_data,
},
},
{
"type": "text",
"text": "请分析这张图表中的趋势并总结三个关键点。"
}
],
}
],
)
print(message.content[0].text)
3. 核心应用场景
A. 文档识别 (OCR 增强)
不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。
"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"
B. 图表分析
Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。
C. UI/UX 评审
前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。
D. 视觉查错
上传报错页面的截图,让 Claude 结合代码库分析可能的原因。
读者导向:从哪个场景先开始
- 先做 OCR 增强(价值直观、上线快)。
- 再做图表分析(适合运营/财务报告自动解读)。
- 最后做 UI 评审和视觉查错(需要更强上下文联动)。
4. 视觉提示词建议
- 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
- 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
- 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。
5. 局限性
- 人脸识别:Claude 无法识别特定真实人物的身份。
- 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
- 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。
一句轻松提醒:
Vision 很像“观察力很强但偶尔会脑补的同事”,
关键字段要二次校验,别直接进关键业务流程。
小贴士:Claude 3.5 Sonnet 的视觉速度非常快,非常适合实时视频流分析或高频图像识别任务。