Hermes 是什么、Nous Research 是谁
Hermes 是什么、Nous Research 是谁
做 AI 产品的人八成都遇到过这种场景。
客户律所在内部用你的工具问:"XX 先生的遗嘱条款和 2024 年修订的家族信托法是否冲突?" ——一个再正常不过的法律咨询问题。后端调 GPT-4o,结果返回一句:
I cannot provide legal advice. Please consult a licensed attorney.
用户愣住。你的产品经理一脸尴尬跟客户解释"其实它能答,只是默认策略比较保守"——但是晚了,投诉已经到了。
这不是 GPT-4o 的 bug,是 OpenAI alignment 策略的主动选择:宁可多拒一点,也不冒政策风险。换成你如果站在 OpenAI 的位置,面对全球 2 亿用户,你也会这么选。
但你的产品不服务 2 亿普通用户。你服务的是律师、合规官、医生、安全研究员——他们专业就是问这种问题的人。GPT 的默认策略在这些场景下变成了阻碍。
Hermes,就是为这个缺口而生的一个选项。
这章讲清楚三件事:Hermes 到底是什么东西、背后的团队 Nous Research 是谁、为什么值得单独开一门课学它。
1. 先把名词理清楚
Hermes 是一个模型系列,不是一个产品、不是一家公司、不是一个框架。
开源权重模型 (open-weight model) —— 你可以直接下载它的"大脑文件"(权重,.safetensors 或 .gguf), 在自己的电脑 / 服务器上跑,不用调任何人的 API。对比 GPT-4o / Claude 这种只能付费调 API 的闭源模型。
简单类比:闭源模型像 Spotify(你只能听,不能下载文件);开源模型像 MP3(你拿到文件,想怎么播放都行)。
Hermes 家族是 Nous Research 发的,基于 Meta 的 Llama 模型做的微调。
微调 (fine-tuning) —— 在一个已经训好的大模型上,用新数据再"训"一轮,让它学会特定风格或任务。
类比:像公司新招的毕业生,底子(通用知识)已经有了,再做 2 周岗前培训学业务。 训练一个 Llama 那种规模的模型要烧上亿美金,但微调一个版本只要几万到几十万美金。
所以你要记住一件事:Llama 是底子,Hermes 是装修过的房子。Meta 出的是毛坯(虽然毛坯也能住人——Llama Instruct 版就是 Meta 自己装修过的),Nous Research 出的是换了装修风格的版本。
目前最新的是 Hermes 4,2025 年 8 月 26 日发布。三个版本:
| 版本 | 参数量 | 基座 | 发布日期 |
|---|---|---|---|
| Hermes 4 14B | 14B | Llama 3.1 14B | 2025-08-26 |
| Hermes 4 70B | 70B | Llama 3.1 70B | 2025-08-26 |
| Hermes 4 405B | 405B | Llama 3.1 405B | 2025-08-26 |
选哪个后面会讲,现在只要记住:14B 塞得进 MacBook M2,70B 要 M3 Max,405B 要云上跑。
2. Nous Research 是谁
一个不到 20 人的团队,总部在纽约。核心是 Teknium (Ryan Teknium) 和 Shivani Mitra。2023 年成立,靠社区和 Twitter 起家,没拿顶级 VC 的钱,但拿到了云厂商的 GPU 赞助(所以能烧 192 张 B200 训 Hermes 4)。
他们的哲学值得单独说一句。主流大厂的 RLHF(基于人类反馈的强化学习)策略是:"让模型听话,少出事"。Nous 的做法是:"让模型听调用方的话,把策略选择权还给使用者"。
RLHF (Reinforcement Learning from Human Feedback) —— 让人给模型的回答打分,模型学着往"高分"的方向调。
直白说:就是给模型请了一批"审稿人",模型慢慢学会"什么样的回答审稿人会点赞"。 审稿人由谁来选、给什么指令,就决定了模型最后的"性格"。
OpenAI 和 Anthropic 请的审稿人指令偏"避免任何风险",Nous 请的指令是"避免明确违法或明确有害"。两者结果就差很多。
顺便吐一句:Nous Research 也不是"无政府主义"——他们有 safety 训练,有 red team,只是拒绝的触发条件不一样。这个点第 4 章会单独展开。
3. Hermes 3 到 Hermes 4,发生了什么变化
去年用过 Hermes 3 的朋友这节可以跳着看。没用过的话这里稍微对比一下:
| 维度 | Hermes 3 (2024-08) | Hermes 4 (2025-08) |
|---|---|---|
| 后训练语料规模 | ~1M 样本 / 1.2B tokens | ~5M 样本 / 60B tokens(×5) |
| Reasoning | 隐式 | Hybrid — 可切 think/fast |
| Tool calling | 原生 <tool_call> | 同 + multi-turn 更稳 |
| Context window | 128K | 128K(没变) |
| 训练硬件 | A100 集群 | 192× NVIDIA B200 |
最值得提的是 Hybrid Reasoning——同一个模型权重里训进了两种"思考模式":
- Fast mode:直接出答案。日常对话、tool call 决策、代码生成用这个。
- Think mode:先在
<think>...</think>里一步步推理,再出答案。数学题、复杂规划、长文档分析用这个。
怎么切?改 system prompt 里一个字段就行,不用部署两个模型。这对 Agent 应用是个大事——规划节点开 think、执行节点开 fast,token 费用和延迟都能省一半。第 5 章会细讲。
4. 所以,为什么单独学它?
做 LLM 应用的人迟早要回答三个问题。这三个问题恰好对应 Hermes 的三个卖点:
问题 1:能不能脱离 OpenAI 生态?
有一天 OpenAI 把 API 涨价 3 倍 / 突然改了 TOS / 拒绝给你的行业提供服务——这是你必须想好的场景。Hermes 权重完全开放,你可以把它部署在自己的 AWS / 自己的机房 / 甚至自己的 MacBook 上。不能说"只有 Hermes 一家",但它是现在最成熟的一条开源替代路线。
问题 2:Tool calling 到底稳不稳?
Hermes 3 开始,<tool_call> JSON 格式是训进权重的,不是靠 prompt engineering 硬凑。对比 Llama 3.3 Instruct 同样场景下 tool call JSON 错误率 ~8%,Hermes 3 能做到 <2%。Hermes 4 进一步在 multi-turn tool use 场景下提升。这意味着你可以拿 Hermes 当 GPT function calling 的直接替代,不用再写一堆正则 parser 兜底。
问题 3:refusal 策略是否卡你业务?
前面说过的痛点。Hermes 4 在 RefusalBench(专门测"本该答却拒答"的评测集) 上拒答率 42.9%,GPT-4o 是 82.3%——差了一倍。不是 Hermes 更"危险",是拒绝的触发条件更有选择性。
如果你做的产品是:法律/合规/安全研究/医疗决策/金融分析,那 Hermes 是值得认真评估的选项。如果你做的是 C 端客服 bot、儿童教育产品——那 Hermes 的低 refusal 反而是风险,保留 Llama 或 GPT 的中高 alignment 更稳。
5. 我们的经验
第一次上 Hermes 是 2024 年底,给悉尼一家律所做内部法律文档分析工具。客户律师抱怨"GPT 老是 refuse"——投诉率 12%。我们把底层 LLM 从 GPT-4o 切到 Hermes 3 70B,走 OpenRouter,两周内投诉率降到 1.5%。月费从 ~$3000 降到 ~$800。
但 Hermes 不是万能的,我们踩过几个坑:
- 中文能力不如 Qwen —— 那个项目的中文支持版本(澳洲华人律所)我们最后是 Hermes 做主干推理 + Qwen 2.5 做中文润色 sub-call。Hermes 的 Llama 基座中文语料占比本来就低,强求中文表现得不偿失。
- Hermes 4 刚出时 Ollama 官方还没上 tag —— 社区 GGUF 质量参差,生产等了 2 周官方版才敢切。学习用可以,生产急着切有风险。
- Guardrails 不能省 —— refusal 低意味着你要自己把关。上线前一定要接 Llama Guard 做输出过滤(第 12 章专门讲)。
说实话 Hermes 是"你挑对了场景才爽"的工具。不挑对场景,Hermes 的特殊卖点反而变成运营负担。
6. 下一步
下一章讲 Hermes vs Llama / Qwen / DeepSeek / GPT 的横向选型——如果你还在犹豫"到底用哪个",那章会给一张按场景的决策表。
急着动手的话跳第 6 章【本地跑 Hermes】,20 分钟 Ollama 跑起来 8B 版本。
想理解它为什么 refusal 这么低的话,第 4 章【Neutral Alignment】把话挑明。
关键资源:
- Hermes 4 Technical Report (PDF) —— 唯一权威的训练细节来源,70 页,英文
- NousResearch on Hugging Face —— 所有模型权重下载入口
- Hermes 3 arXiv 论文 —— 想深入看架构设计的话