logo
02

Hermes vs Llama / Qwen / DeepSeek / GPT — 选型地图

⏱️ 25分钟

Hermes vs Llama / Qwen / DeepSeek / GPT — 选型地图

"到底用哪个模型"是 AI 工程师每周都要被问一次的问题。

产品经理问、技术合伙人问、客户 CTO 问。大多数人听到 Hermes 第一反应是:"它和 Llama 3 比有啥区别?跟 Qwen 2.5 呢?比 DeepSeek 强吗?"

这章不给 benchmark 榜单——榜单谁都能查。这章给的是按你实际的业务场景,怎么选。

读完你应该能在 5 分钟内给团队一个有把握的答复:"我们的场景是 X,所以选 Y,理由是 Z"。


1. 五条路线,先定个基本盘

开源路线
├── Llama 系列      — Meta 出品,开源基石
├── Hermes 系列     — Llama 的微调版(本课程主角)
├── Qwen 系列       — 阿里出品,中文最强
└── DeepSeek 系列   — 杭州深度求索出品,推理能力第一梯队

闭源路线
└── GPT-4o / Claude — OpenAI / Anthropic,综合最强,最贵

先来一张全景对比表,后面分别展开:

模型权重开放旗舰参数中文Tool CallingRefusal代表价位 (per 1M token)
Hermes 4405B⭐⭐⭐⭐⭐$0.40 / $0.60 (70B)
Llama 3.3 Instruct70B中下⭐⭐⭐中高$0.12 / $0.30
Qwen 2.572B⭐⭐⭐⭐⭐⭐⭐⭐⭐$0.25 / $0.50
DeepSeek V3 / R1671B MoE⭐⭐⭐⭐⭐⭐⭐⭐⭐中下$0.14 / $0.28 (V3)
GPT-4o / Claude 3.7未公开⭐⭐⭐⭐⭐$2.50 / $10.00

打分是我们过去一年在生产环境里的主观感受,不是 benchmark 分数。Benchmark 能骗人,生产用久了才知道真相

2. 按场景选

下面这几个场景覆盖了 90% 的实际项目。对号入座。

场景 A:做 Agent,需要稳定的 tool calling

首选:Hermes 4 70BDeepSeek V3

为什么不选 Llama 3.3 Instruct?我们测过——在连续 10 步的 multi-turn 带工具调用里,Hermes 4 的 JSON 格式错误率稳定在 <2%,Llama 3.3 Instruct 在 ~8%。

这 6% 的差距在单次调用看不出来,但在 Agent 里累积起来就是崩溃率。10 步 Agent,Hermes 成功率约 82%,Llama 约 43%——体验上是"跑完了"和"跑一半崩了"的区别。

DeepSeek V3 tool calling 也很稳,但它是 671B MoE 架构——

MoE (Mixture of Experts) —— "专家混合模型",虽然总参数 671B,但每次推理只激活 ~37B。

类比:公司里有 100 个专家,但每个任务只喊 5 个相关专家来开会。理论上很聪明,但你要雇 100 个人的工资。 自托管要至少 8× H100,小团队根本扛不住。

所以 DeepSeek V3 基本只能用官方 API,没法自托管。如果你需要可部署 + tool calling 强,Hermes 70B 是平衡点。

场景 B:纯中文业务

选 Qwen 2.5 72BDeepSeek V3

说个我们真踩过的坑:最早做一个澳洲华人客户的法律 RAG,头铁用 Hermes 3 跑中文,结果输出里夹着英文单词、语气生硬、偶尔出现繁体字和简体字混排。改成 Qwen 2.5 后,中文质量瞬间升了一个档次

为什么?Hermes 的底子是 Llama 3.1,Llama 训练时中文语料占比 <10%。Qwen 是阿里做的,训练时中文占比 40%+。这不是微调能抹平的差距。

所以我们现在的做法:中文业务用 Qwen 做主干,Hermes 做 tool calling 或 reasoning sub-call。最终输出再回到 Qwen 润色一遍。两个模型各司其职。

场景 C:不能把数据发给 OpenAI / 合规场景

Hermes 4 是最合适的选择

三个原因:

  1. 权重完全开放 —— 能部署在自己的 VPC / 客户的 on-prem 机房
  2. License 商用友好 —— Llama Community License 的衍生,商用没问题
  3. Refusal 低 —— 法务 / 医疗 / 安全研究这类业务场景,用户本来就是要问敏感问题的专业人士

Llama 3.3 也能自托管,但 refusal 重,面对专业用户会卡流程。Qwen 在中国境外的合规场景可能被客户嫌弃(数据主权顾虑)。

综合下来 Hermes 4 是最稳的选择。

场景 D:就想要便宜的 GPT 替代,做通用 chatbot

选 Llama 3.3 Instruct 或 Qwen 2.5不要选 Hermes。

这个建议听着反直觉——Hermes 不是"升级版 Llama"吗?为什么反而不推?

因为 Hermes 的 "neutral alignment" 是针对专业场景优化的。你做一个 C 端客服 bot,用户会问各种乱七八糟的东西——Hermes 默认就"愿意答"的策略反而让你天天做 guardrails。

Llama 3.3 Instruct 的 alignment 是中等偏保守,C 端场景反而更省心。价格也便宜:OpenRouter 上 $0.12/M input tokens,大约是 Hermes 4 70B 的 60%。

选模型要对应场景,不是选"最贵"或"最热门"

场景 E:reasoning-heavy(数学、代码、定理证明)

这一档推荐顺序是:DeepSeek R1 > Hermes 4 405B (think mode) > Qwen 2.5-Max

DeepSeek R1 是 2025 年上半年最火的开源推理模型,AIME 2024 考到 79.8%。Hermes 4 405B 开了 think mode 能到 81.9%,但 Hermes 70B 只有 ~65%——在推理这一档参数量很重要

坦白说,reasoning 任务我们一般直接上 DeepSeek R1——它专门为这个场景训的,用起来最顺手。Hermes 4 是"通用 + reasoning 能切换"的路线,单论推理能力不如专门派。

场景 F:最前沿、长 context 1M+、多模态

还是用 GPT-4o / Gemini 2.5 / Claude 3.7,开源还没追上。

不是我们替闭源厂商站台——是现实。Gemini 2.5 Pro 的 1M context 真的能稳定发挥,Hermes 4 的 128K context 在 >96K 之后召回率会明显下降。多模态那就更不用说了,开源多模态模型和闭源之间还有 1 年以上的代差。

所以如果你的业务卖点就是"处理 500 页合同"或"看懂复杂图表",老实上闭源。等开源追上再省钱。

3. 一张决策树

要 tool calling 吗?
│
├─ 是 → 能自托管吗?(有 A100/H100 预算)
│       ├─ 能 → Hermes 4 70B
│       └─ 不能 → OpenRouter 上调 Hermes 4 70B / DeepSeek V3
│
└─ 否 → 中文为主吗?
        ├─ 是 → Qwen 2.5 72B
        └─ 否 → refusal 能忍吗?
                ├─ 能 → Llama 3.3 Instruct 70B(最便宜)
                └─ 不能 → Hermes 4(就是为这个设计的)

记这个图比记五条路线的参数量有用。

4. 我们的经验:四个真实项目的选型

列一下过去一年做过的 4 个项目,最终选了哪个,为什么:

项目业务最终选型理由
法律文档分析悉尼律所内部工具Hermes 3 70B(本地 A100)不能发数据给 OpenAI,refusal 要低
面试 AI 助手学生社区 SaaSGPT-4o + Llama 3.1 70B需要前沿能力,中文+英文混用,成本敏感时 fallback
中文客服 bot墨尔本电商Qwen 2.5 72B中文第一,refusal 中等 OK
Agent 平台 SaaS做面向企业的 AgentHermes 4 70B (OpenRouter)tool calling 要稳 + 成本敏感

共同点:没一个项目选 Claude / GPT 做主力。不是这俩不好——是它们太贵,上面四个都是成本敏感的业务。

四个里 Hermes 占两个,但都不是因为 Hermes "全能"——都是因为那两个项目的具体需求 Hermes 刚好对得上

5. 下一步

决定了选 Hermes?跳第 3 章【Hermes 架构】深入技术细节,或者第 6 章【本地跑 Hermes】动手跑一个。

还在犹豫成本?第 11 章【部署成本对比】把账算透——per-token API / Dedicated Endpoint / 自托管三条路各值多少钱。

暂时不选 Hermes 也没关系——至少现在你在群里被问"为啥不选 Hermes"能答得上来了。


关键资源