logo

AI 模型对比参考 (2026)

选择适合你任务的模型,价格为每百万 Token

ProviderModelContext Speed Price VisionStrengths
OpenAI
gpt-5.2
5M很快
$10/$30
顶级推理全模态实时理解
OpenAI
gpt-5.1
2M极快
$5/$15
超高性能低延迟响应
OpenAI
gpt-5-mini
128K闪电般
$0.10/$0.40
极致性价比毫秒级响应
OpenAI
gpt-5-nano
32K瞬间
$0.01/$0.03
体积小低能耗
OpenAI
gpt-5
2M很快
$5.00/$20.00
AGI 级推理全模态实时交互
OpenAI
gpt-4o
128K
$2.50/$10
多模态(文本+图像)强推理能力
OpenAI
gpt-4o-mini
128K很快
$0.15/$0.60
性价比高速度快
OpenAI
o1
200K较慢
$15/$60
超强推理数学/编程专家
OpenAI
o3-mini
200K中等
$1.10/$4.40
推理能力强成本适中
Google
gemini-3-pro
2M极快
$1.00/$4.00
原生多模态复杂推理
Google
gemini-3-flash
1M闪电般
$0.10/$0.40
极致低延迟高吞吐量
Google
gemini-2.5-pro
1M+中等
$1.25/$5
超大上下文多模态
Google
gemini-2.5-flash
1M+很快
$0.15/$0.60
超快速度超大上下文
Google
gemini-2.0-flash
1M很快
免费/按量
速度极快原生工具调用
Google
gemini-1.5-flash
1M很快
$0.075/$0.30
速度快成本低
Anthropic
claude-sonnet-4.5-20250929
500K
$8.00/$32.00
代码架构师级极度拟人
Anthropic
claude-haiku-4.5-20251015
200K极快
$0.25/$1.25
响应迅速低成本
Anthropic
claude-opus-4.5-20251124
200K较慢
$15/$75
最强综合能力扩展思考
Anthropic
claude-sonnet-4
200K
$3/$15
编程专家性能平衡
Anthropic
claude-3-5-sonnet
200K
$3/$15
代码能力强性价比好
xAI
grok-3
128K中等
$3/$15
推理能力强实时信息
xAI
grok-3-fast
128K很快
$5/$25
速度优先低延迟
xAI
grok-2-vision
32K中等
$2/$10
视觉能力图像理解
Meta
llama-4-405b (Maverick)
128K中等
开源/托管
开源最强原生多模态
Meta
llama-4-70b (Scout)
128K
开源/托管
性能平衡高吞吐量
Meta
llama-4-8b
32K极快
开源/托管
端侧运行极低延迟

代码生成/编程

claude-sonnet-4.5 / llama-4-405b
代码质量高、理解力强

智能导入/解析

gemini-3-flash / llama-4-70b
大上下文、快速、便宜,适合批量解析

创意写作

claude-opus-4.5 / gpt-5.2
创意能力强、文笔好

复杂推理/数学

gpt-5.2 / llama-4-405b
深度推理、逻辑能力强

图像理解

gpt-5.2 / gemini-3-pro
多模态能力、视觉理解好

长文档处理

gemini-3-pro / claude-sonnet-4.5
超大上下文窗口

实时交互/Agent

gemini-3-flash / llama-4-8b
低延迟、工具调用能力

成本敏感/私有化

llama-4-8b / gpt-5-nano
价格低、支持本地部署

质量优先 (Quality)

核心业务逻辑、高风险决策、顶级科研。追求极致的准确性与推理深度。

GPT-5.2Claude Opus 4.5Llama 4-405B

速度优先 (Latency)

实时对话、代码补全、搜索增强。追求毫秒级的首字响应 (TTFT)。

GPT-5.1Gemini 3 FlashLlama 4-8B

成本优先 (Cost)

大规模数据清洗、初步意图识别、简单翻译。追求最高的吞吐量与最低的 Token 单价。

Claude Haiku 4.5Llama 4-8B (Local)Gemini 3 Flash

工程能力矩阵 (Engineering Capabilities)

FeatureOpenAIAnthropicGooglexAIMeta
Context Caching (上下文缓存)✅ Ephemeral (1h)✅ 5min TTL✅ Long TTL✅ Self-hosted
Structured Output (JSON)✅ Strict Mode⚠️ Tool Use✅ JSON Mode⚠️ Partial✅ JSON Mode
Batch API (批量处理)✅ 50% Off✅ 50% Off✅ StandardN/A (Open)
Vision/Audio (多模态)✅ Image/Audio⚠️ Image Only✅ Native A/V✅ Image✅ Image/Video
Fine-tuning (微调)✅ Robust⚠️ Limited✅ LoRA✅ Full Finetune

真实场景成本估算 (Real-world Cost)

📚 书籍总结 (Book Summary)

输入 20 万字 (300k Tokens),输出 5000 字摘要
Gemini 3 Flash$0.032
GPT-4o-mini$0.048
Claude Sonnet 4.5$2.56
GPT-5.2$3.15

💻 代码库分析 (Repo Analysis)

输入整个项目代码 (1M Tokens),输出架构建议
Gemini 3 Pro$1.04
Claude Opus 4.5$15.75
GPT-5.2$10.30
Llama 4 (Local)$0.00*

💬 客服机器人 (Chatbot)

每天 1000 次对话 (平均每轮 1k In / 200 Out)
GPT-5-nano$0.016/day
Gemini 3 Flash$0.18/day
GPT-4o-mini$0.27/day
GPT-5.1$8.00/day

性能与合规 (Performance & Compliance)

Latency Profile (TTFT)

首字延迟:影响实时对话体验的关键指标

⚡ 极速 (< 200ms)Llama 4 (Groq), Gemini 3 Flash
🚀 流畅 (~500ms)GPT-4o, Claude Sonnet 4.5
🐢 思考中 (> 1s)o1, GPT-5.2 (深度推理)

Throughput (生成速度)

吞吐量:影响长文档与代码生成体验

🌊 爆发 (> 150 t/s)Gemini 3 Flash, Llama 4-8B
🚄 高速 (~80 t/s)GPT-4o, Claude Haiku
🚗 均速 (~30 t/s)Claude Opus, GPT-5.2

Enterprise (企业合规)

数据隐私、私有化部署与合规性

🔒 Zero RetentionOpenAI Enterprise, Anthropic
☁️ Private VPCAzure OpenAI, AWS Bedrock
🏢 Self-hostedLlama 4 (Local/On-prem)

提示词策略指南 (Prompting Strategies)

Anthropic Claude

XML 结构化 (XML Tags)

Claude 极其偏好 XML 标签隔离上下文。使用 <data>、<rules> 等标签包裹内容,效果显著提升。

<context>...</context> <instruction>...</instruction>

OpenAI GPT

System Persona (角色设定)

在 System Prompt 中定义强人设。对于复杂任务,明确要求 "Let's think step by step"。

System: You are a senior engineer... User: Refactor this.

Google Gemini

Few-Shot & Long Context

利用超长上下文提供大量示例(10+)。Gemini 擅长从长文档或多模态输入中学习模式。

User: Here are 20 SQL examples. Write query #21...

Meta Llama

Direct Instruction (直接指令)

指令要明确、简洁。对于 Llama 3/4,明确禁止啰嗦(如 "No yapping", "JSON only")。

User: Extract names. JSON format. No intro/outro.

xAI Grok

Real-time & Witty (实时与风格)

利用其对 X (Twitter) 数据的实时访问能力。对于严肃任务,需在 System Prompt 中明确要求 "Be professional, no jokes"。

System: You are a serious data analyst. User: Summarize latest tweets about AAPL.

💡 价格说明:价格格式为 $输入 / $输出 (每 1M Token)。实际价格可能因地区、账户类型而异,请以官方为准。Gemini 模型在低使用量时可能有免费额度。上下文越大的模型处理长文档越有优势,但成本也可能更高。

02

AI 模型对比参考

⏱️ 20分钟

AI Model 选型与对比

选 model 这件事,很多 team 一开始会被排行榜带偏。真实 project 里,真正决定体验的往往不是“谁最强”,而是你这类 task 到底更吃 reasoning、速度、稳定性,还是价格。

AI 模型选型地图


先记住一个判断顺序

不要上来就问“哪个 model 最好”。更实用的顺序是:

  1. 你的 task 是什么类型?
  2. 错一次的代价高不高?
  3. 用户是否能接受 2-5 秒等待?
  4. 你是否要调用 tool、读长 context、输出 JSON?
  5. 预算是 demo budget,还是 production budget?

如果这五个问题没想清楚,model 对比通常只会停留在“网上大家都说它强”。


常见 task,对 model 能力要求并不一样

Task 类型更看重什么典型失误选型建议
Chat / QA响应速度、语气自然答得慢、废话多先用中档 model 打底
Code generation指令遵循、长 context、tool calling改坏已有代码、漏边界条件优先看工程稳定性,不只看 benchmark
Document summary长 context、结构化输出漏重点、擅自归纳配合 chunking 与 output template
Agent workflowtool calling、可恢复性死循环、错误调用 tool先限制 tool scope,再谈 model 强度
Review / classification一致性、低成本分类漂移、解释不稳定small model + 明确 label set 通常更划算
High-risk scenario稳定性、可追踪、拒答边界hallucination、越权、错误承诺multi-model 复核或人工兜底

选型时最该看的 6 个维度

1. 任务完成率

不是看 model “会不会讲”,而是看它能不能把你的 task 做完。
例如:

  • 客服 bot 看的是是否命中 knowledge base 并给出正确答复
  • code assistant 看的是 patch 能不能跑通
  • form extraction 看的是 JSON 字段是否稳定

如果没有 task completion rate,很多“model 体验很好”的 feedback,其实只是语言更像人。

2. 延迟

用户一般不会因为回答更聪明而原谅你慢 8 秒。
尤其在这些 scenario 里,latency 直接决定 product 是否可用:

  • 搜索框实时问答
  • IDE 内补全
  • form 填写辅助
  • sales 和客服对话

一个经验是:first response 先快,复杂 reasoning 放到二段式 workflow 里。

3. 成本

cost 不只是 token 单价,还包括:

  • system prompt 长度
  • context 拼接策略
  • 重试次数
  • tool 调用次数
  • 失败后的 fallback 成本

很多 team 把 model 单价压下来了,但因为 prompt 太长、request 次数太多,月底 bill 依然不好看。

4. 指令遵循

当你要求 model 输出固定结构、遵守边界、只基于给定材料回答时,这个维度比“文笔好不好”重要得多。

尤其是以下需求:

  • 只能输出 JSON
  • 不能编造 source
  • 不允许越权调用 tool
  • 不允许回答未授权数据

5. 上下文能力

long context 不是“window 越大越万能”。
更关键的是 model 在长 context 里是否还能:

  • 抓住真正相关的 chunk
  • 不忽略后半段约束
  • 不把用户上传内容当成 system instruction

window 很大但 retrieval 和引用能力不稳定,工程上仍然会出问题。

6. 生态与工程可接入性

model 本身强,不代表接起来顺手。
落地时还要看:

  • SDK 是否成熟
  • JSON / tool calling 是否稳定
  • 流式输出体验是否好
  • 限流、重试、日志能力是否完善
  • 是否支持你所在区域和 compliance 要求

一个更接近 production 的 model 分层

Layer主要职责适合放什么 model
Fast Layer首次响应、classification、routingsmall model 或 low-cost model
Work Layer主 task 执行、写作、代码、总结中高档通用 model
Verify Layer结构校验、敏感内容审查、二次复核专门审查 model 或 rule engine

这个分层的好处是,你不需要让“最贵的 model 做所有事”。


实战判断:什么时候该上 large model,什么时候不用

更适合大模型的情况

  • 需求描述模糊,需要较强 reasoning 与补全能力
  • task 跨多个 document、context 复杂
  • 代码修改涉及 architecture 理解
  • 你要它在一次对话里兼顾计划、生成、修复、解释

更适合中小模型的情况

  • classification、抽取、label mapping
  • FAQ 改写
  • 标准格式转换
  • 大规模 batch processing
  • 用户可容忍“必要时升级到更强 model”的 workflow

一句话概括:高价值、低频 task 更值得用强 model;高频、标准化 task 更值得优化单位成本。


一个可直接拿来评估的 selection scorecard

Metric权重你要记录什么
Task completion rate30%是否正确完成核心任务
Latency20%first token 时间、完整响应时间
Cost15%单次 request 成本、日均成本
Structure stability15%JSON 是否稳定、字段是否缺失
Security10%是否容易越权、hallucination、泄漏
Integration effort10%SDK、日志、监控、retry 是否顺手

建议不要只做一次主观对比。至少准备 20-50 条代表性 sample,跑一个小型 eval。


一个简单但有效的 A/B test 方法

样本集准备
  -> 20 条高频真实 task
  -> 10 条 edge case
  -> 10 条 high-risk task

每个 model 统一输入
  -> 相同 system prompt
  -> 相同 retrieval 结果
  -> 相同 output format 要求

记录结果
  -> success / failure
  -> failure 原因
  -> 响应时长
  -> 平均成本

复盘
  -> 哪些 task 必须升级 model
  -> 哪些 task 可降级节省成本

Production 环境建议

  • multi-model fallback:主 model 遇到限流、超时或质量下降时,自动切到备选 model。
  • hybrid strategy:意图识别、classification、preprocess 先走轻量 model;复杂生成和代码修改再交给强 model。
  • 定期 re-evaluate:model 能力和价格变化很快,建议每季度 review 一次。
  • 日志保留决策依据:记录为什么这个 task 走这个 model,方便后续优化 routing。

常见误区

误区实际问题修正方式
只看公开排行榜benchmark task 不等于你的真实 task自建小型 eval set
只看 model 价格忽略 retry、长 prompt、context cost看 total request cost
一套 prompt 跑所有 model不同 model 对格式要求敏感度不同做 provider-aware 调整
默认最强 model 最好可能慢、贵、过度设计先做 layered routing
只测成功样例上线后 edge case 才暴露加入脏数据、长文本、异常输入

动手练习

  1. 选一个你的真实 task,例如“把客服对话整理成工单 summary”。
  2. 写出同一份 input,分别让两个 model 执行。
  3. 用“正确率、速度、成本、格式稳定性”四项打分。
  4. 再决定是 single model、dual model,还是 layered routing。

小结

model 选型不是排名游戏,而是 engineering decision。
如果你只记住一条:先看 task,再看体验和 cost,最后才看 model 名气。