Claude API 视觉能力
Claude 3 系列模型(Sonnet, Opus, Haiku)均原生支持视觉识别。你可以向 Claude 发送图片并询问关于图片的问题。
#1. 支持的图片格式
- 文件类型:JPEG, PNG, GIF, WebP。
- 大小限制:单张图片最大 5MB。
- 数量限制:单次请求最多支持 20 张图片。
#2. API 调用示例 (Python)
你需要将图片转换为 Base64 编码后再发送。
pythonimport base64 import anthropic client = anthropic.Anthropic() # 读取图片并编码 with open("chart.png", "rb") as image_file: image_data = base64.b64encode(image_file.read()).decode("utf-8") message = client.messages.create( model="claude-3-5-sonnet-20240620", max_tokens=1024, messages=[ { "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/png", "data": image_data, }, }, { "type": "text", "text": "请分析这张图表中的趋势并总结三个关键点。" } ], } ], ) print(message.content[0].text)
#3. 核心应用场景
#A. 文档识别 (OCR 增强)
不同于传统的 OCR,Claude 可以理解文档的结构、含义和逻辑,甚至能识别手写体。
"从这张收银小票中提取商户名、总金额和消费明细,并输出 JSON 格式。"
#B. 图表分析
Claude 擅长解析复杂的折线图、柱状图和流程图,并能进行逻辑推导。
#C. UI/UX 评审
前端开发者可以上传网页截图,让 Claude 给出改进建议或直接生成对应的 Tailwind 代码。
#D. 视觉查错
上传报错页面的截图,让 Claude 结合代码库分析可能的原因。
#4. 视觉提示词建议
- 精确描述需求:如果你需要特定的坐标或数值,请明确指出。
- 结合上下文:同时提供相关的文字背景信息会显著提高准确度。
- 多图对比:如果你想比较两张图的不同,请在一次请求中同时上传它们。
#5. 局限性
- 人脸识别:Claude 无法识别特定真实人物的身份。
- 极小文本:如果图片分辨率过低,识别极小文字可能会出错。
- 坐标定位:虽然可以感知空间关系,但精准到像素级别的定位有时会有偏差。
小贴士:Claude 3.5 Sonnet 的视觉速度非常快,非常适合实时视频流分析或高频图像识别任务。