Hermes Agent
用 Nous Hermes 开源模型搭自己的 Agent
Hermes 是 Nous Research 在 Llama 基座上微调的开源模型系列。2025 年 8 月发布的 Hermes 4 有 14B、70B、405B 三个版本,405B 在 MATH-500 跑 96.3%、AIME'24 跑 81.9%,已经进入 frontier 梯队。它最出名的两件事是:**原生 hybrid reasoning**(可切换 think/fast 模式)和 **RefusalBench 57.1% 的"最少拒绝率"**——GPT-4o 只有 17.67%,Claude Sonnet 4 只有 17%。
为什么值得单独学?因为多数做 Agent 的团队最后都要面对两个问题:**tool calling 到底可不可靠**、**模型拒不拒答你的业务场景**。Hermes 3 开始就把 `<tool_call>` JSON 格式训进权重里,不用再靠外部 parsing hack;Hermes 4 进一步把 reasoning 训练数据从 1M 样本扩到 5M 样本、60B tokens。
💰 薪资参考(2026):做"自托管 LLM + Agent 框架"这一路的岗位在 AU $160K-$250K,美国 $180K-$350K total comp。需求点不是会调 API,而是会部署、会调 tool use、会做 guardrails。
🏢 招聘公司:Nous Research、Together AI、OpenRouter、Replicate;金融 / 医疗 / 国防合规场景的公司(不能把数据发给 OpenAI);所有做"AI Agent 平台"的初创公司。
这个方向假设你已经会调 LLM API 了——没这个基础先去学 AI Engineer 方向 01-05 章。
30秒快速体验
30 秒试用 Hermes 4 14B — 本地 Ollama 就够。
# 装 Ollama 后
ollama pull hermes3:70b # 或 hermes3:8b 本机能跑
# 命令行对话
ollama run hermes3:70b "给我一段 Python 代码,用 requests 调用一个 REST API 并重试 3 次"
# 或者用 OpenAI 兼容 API
curl http://localhost:11434/v1/chat/completions \
-d '{"model": "hermes3:70b", "messages": [{"role": "user", "content": "Hi"}]}'本地没 GPU 跑不动 70B?用 OpenRouter 免费额度试 Hermes 3 405B:`nousresearch/hermes-3-llama-3.1-405b:free`。第 6、7 章会详细讲三种部署方式。
你将学会什么
在这个教程中,你将学会:
- ✓能讲清楚 Hermes 3 vs Hermes 4、14B/70B/405B 之间的实际差距,知道什么场景选哪个
- ✓能在本地和 OpenRouter / Together 云端两条路都把 Hermes 跑通,做调用成本对比
- ✓掌握 Hermes 原生 `<tool_call>` 格式,不用再手写 parser,能用 Hermes 替换 GPT/Claude 做 function calling
- ✓能用 Hermes + LangGraph 搭一个多步骤自主 Agent,带工具调用、状态恢复、LangSmith 追踪
- ✓理解 uncensored / neutral alignment 的含义和运营风险,上线前能做基本 guardrails
后续章节总览
按大章节快速预览,直接跳到你想学的部分。
参数量、训练数据、B200 集群、flex attention、DPO 策略
- Hermes 的架构 — Llama 基座 + 微调策略30分钟
- Neutral Alignment / Uncensored 到底意味着什么20分钟
- Hybrid Reasoning — think / fast 两种模式25分钟
装 Ollama、拉权重、显存选型、OpenAI 兼容 API
- 本地跑 Hermes — Ollama + hermes3:70b30分钟
- 云端跑 Hermes — OpenRouter / Together / DeepInfra 三家对比25分钟
- 结构化输出 — JSON Schema + `<tool_call>` 实战40分钟
State Graph、Tool Node、checkpointer、interrupt — 从零搭一个能跑的研究 Agent