logo
01

Hermes 是什么、Nous Research 是谁

⏱️ 20分钟

Hermes 是什么、Nous Research 是谁

做 AI 产品的人八成都遇到过这种场景。

客户律所在内部用你的工具问:"XX 先生的遗嘱条款和 2024 年修订的家族信托法是否冲突?" ——一个再正常不过的法律咨询问题。后端调 GPT-4o,结果返回一句:

I cannot provide legal advice. Please consult a licensed attorney.

用户愣住。你的产品经理一脸尴尬跟客户解释"其实它能答,只是默认策略比较保守"——但是晚了,投诉已经到了。

这不是 GPT-4o 的 bug,是 OpenAI alignment 策略的主动选择:宁可多拒一点,也不冒政策风险。换成如果站在 OpenAI 的位置,面对全球 2 亿用户,你也会这么选。

但你的产品不服务 2 亿普通用户。你服务的是律师、合规官、医生、安全研究员——他们专业就是问这种问题的人。GPT 的默认策略在这些场景下变成了阻碍。

Hermes,就是为这个缺口而生的一个选项。

这章讲清楚三件事:Hermes 到底是什么东西、背后的团队 Nous Research 是谁、为什么值得单独开一门课学它。


1. 先把名词理清楚

Hermes 是一个模型系列,不是一个产品、不是一家公司、不是一个框架。

开源权重模型 (open-weight model) —— 你可以直接下载它的"大脑文件"(权重,.safetensors 或 .gguf), 在自己的电脑 / 服务器上跑,不用调任何人的 API。对比 GPT-4o / Claude 这种只能付费调 API 的闭源模型。

简单类比:闭源模型像 Spotify(你只能听,不能下载文件);开源模型像 MP3(你拿到文件,想怎么播放都行)。

Hermes 家族是 Nous Research 发的,基于 Meta 的 Llama 模型做的微调。

微调 (fine-tuning) —— 在一个已经训好的大模型上,用新数据再"训"一轮,让它学会特定风格或任务。

类比:像公司新招的毕业生,底子(通用知识)已经有了,再做 2 周岗前培训学业务。 训练一个 Llama 那种规模的模型要烧上亿美金,但微调一个版本只要几万到几十万美金。

所以你要记住一件事:Llama 是底子,Hermes 是装修过的房子。Meta 出的是毛坯(虽然毛坯也能住人——Llama Instruct 版就是 Meta 自己装修过的),Nous Research 出的是换了装修风格的版本。

目前最新的是 Hermes 4,2025 年 8 月 26 日发布。三个版本:

版本参数量基座发布日期
Hermes 4 14B14BLlama 3.1 14B2025-08-26
Hermes 4 70B70BLlama 3.1 70B2025-08-26
Hermes 4 405B405BLlama 3.1 405B2025-08-26

选哪个后面会讲,现在只要记住:14B 塞得进 MacBook M2,70B 要 M3 Max,405B 要云上跑

2. Nous Research 是谁

一个不到 20 人的团队,总部在纽约。核心是 Teknium (Ryan Teknium) 和 Shivani Mitra。2023 年成立,靠社区和 Twitter 起家,没拿顶级 VC 的钱,但拿到了云厂商的 GPU 赞助(所以能烧 192 张 B200 训 Hermes 4)。

他们的哲学值得单独说一句。主流大厂的 RLHF(基于人类反馈的强化学习)策略是:"让模型听话,少出事"。Nous 的做法是:"让模型听调用方的话,把策略选择权还给使用者"。

RLHF (Reinforcement Learning from Human Feedback) —— 让人给模型的回答打分,模型学着往"高分"的方向调。

直白说:就是给模型请了一批"审稿人",模型慢慢学会"什么样的回答审稿人会点赞"。 审稿人由谁来选、给什么指令,就决定了模型最后的"性格"。

OpenAI 和 Anthropic 请的审稿人指令偏"避免任何风险",Nous 请的指令是"避免明确违法或明确有害"。两者结果就差很多。

顺便吐一句:Nous Research 也不是"无政府主义"——他们有 safety 训练,有 red team,只是拒绝的触发条件不一样。这个点第 4 章会单独展开。

3. Hermes 3 到 Hermes 4,发生了什么变化

去年用过 Hermes 3 的朋友这节可以跳着看。没用过的话这里稍微对比一下:

维度Hermes 3 (2024-08)Hermes 4 (2025-08)
后训练语料规模~1M 样本 / 1.2B tokens~5M 样本 / 60B tokens(×5)
Reasoning隐式Hybrid — 可切 think/fast
Tool calling原生 <tool_call>同 + multi-turn 更稳
Context window128K128K(没变)
训练硬件A100 集群192× NVIDIA B200

最值得提的是 Hybrid Reasoning——同一个模型权重里训进了两种"思考模式":

  • Fast mode:直接出答案。日常对话、tool call 决策、代码生成用这个。
  • Think mode:先在 <think>...</think> 里一步步推理,再出答案。数学题、复杂规划、长文档分析用这个。

怎么切?改 system prompt 里一个字段就行,不用部署两个模型。这对 Agent 应用是个大事——规划节点开 think、执行节点开 fast,token 费用和延迟都能省一半。第 5 章会细讲。

4. 所以,为什么单独学它?

做 LLM 应用的人迟早要回答三个问题。这三个问题恰好对应 Hermes 的三个卖点:

问题 1:能不能脱离 OpenAI 生态?

有一天 OpenAI 把 API 涨价 3 倍 / 突然改了 TOS / 拒绝给你的行业提供服务——这是你必须想好的场景。Hermes 权重完全开放,你可以把它部署在自己的 AWS / 自己的机房 / 甚至自己的 MacBook 上。不能说"只有 Hermes 一家",但它是现在最成熟的一条开源替代路线

问题 2:Tool calling 到底稳不稳?

Hermes 3 开始,<tool_call> JSON 格式是训进权重的,不是靠 prompt engineering 硬凑。对比 Llama 3.3 Instruct 同样场景下 tool call JSON 错误率 ~8%,Hermes 3 能做到 <2%。Hermes 4 进一步在 multi-turn tool use 场景下提升。这意味着你可以拿 Hermes 当 GPT function calling 的直接替代,不用再写一堆正则 parser 兜底。

问题 3:refusal 策略是否卡你业务?

前面说过的痛点。Hermes 4 在 RefusalBench(专门测"本该答却拒答"的评测集) 上拒答率 42.9%,GPT-4o 是 82.3%——差了一倍。不是 Hermes 更"危险",是拒绝的触发条件更有选择性

如果你做的产品是:法律/合规/安全研究/医疗决策/金融分析,那 Hermes 是值得认真评估的选项。如果你做的是 C 端客服 bot、儿童教育产品——那 Hermes 的低 refusal 反而是风险,保留 Llama 或 GPT 的中高 alignment 更稳。

5. 我们的经验

第一次上 Hermes 是 2024 年底,给悉尼一家律所做内部法律文档分析工具。客户律师抱怨"GPT 老是 refuse"——投诉率 12%。我们把底层 LLM 从 GPT-4o 切到 Hermes 3 70B,走 OpenRouter,两周内投诉率降到 1.5%。月费从 ~$3000 降到 ~$800

但 Hermes 不是万能的,我们踩过几个坑:

  • 中文能力不如 Qwen —— 那个项目的中文支持版本(澳洲华人律所)我们最后是 Hermes 做主干推理 + Qwen 2.5 做中文润色 sub-call。Hermes 的 Llama 基座中文语料占比本来就低,强求中文表现得不偿失。
  • Hermes 4 刚出时 Ollama 官方还没上 tag —— 社区 GGUF 质量参差,生产等了 2 周官方版才敢切。学习用可以,生产急着切有风险
  • Guardrails 不能省 —— refusal 低意味着你要自己把关。上线前一定要接 Llama Guard 做输出过滤(第 12 章专门讲)。

说实话 Hermes 是"你挑对了场景才爽"的工具。不挑对场景,Hermes 的特殊卖点反而变成运营负担。

6. 下一步

下一章讲 Hermes vs Llama / Qwen / DeepSeek / GPT 的横向选型——如果你还在犹豫"到底用哪个",那章会给一张按场景的决策表。

急着动手的话跳第 6 章【本地跑 Hermes】,20 分钟 Ollama 跑起来 8B 版本。

想理解它为什么 refusal 这么低的话,第 4 章【Neutral Alignment】把话挑明。


关键资源