自学编程遇到瓶颈怎么办？

遇到瓶颈是正常的。建议：1. 动手做项目 (Project-based Learning)，不要只看视频；2. 善用 AI 助手 (如 Cursor, ChatGPT) 解释代码和逻辑；3. 加入全球技术社区 (如 Discord, GitHub) 与他人交流；4. 拆解大问题为小模块逐个击破。

如何构建一个具备全球竞争力的开发者作品集 (Portfolio)？

优秀的 Portfolio 不在多而在精。包含 2-3 个完整的、已上线的项目 (Live Demo) 最佳。每个项目应包含：GitHub 源码链接、在线演示地址、以及一份中英文 Readme 文档说明解决了什么问题、使用了什么技术栈。

Hermes 是什么、Nous Research 是谁

⏱️ 20分钟

Hermes 是什么、Nous Research 是谁

做 AI 产品的人八成都遇到过这种场景。

客户律所在内部用你的工具问："XX 先生的遗嘱条款和 2024 年修订的家族信托法是否冲突？" ——一个再正常不过的法律咨询问题。后端调 GPT-4o，结果返回一句：

I cannot provide legal advice. Please consult a licensed attorney.

用户愣住。你的产品经理一脸尴尬跟客户解释"其实它能答，只是默认策略比较保守"——但是晚了，投诉已经到了。

这不是 GPT-4o 的 bug，是 OpenAI alignment 策略的主动选择：宁可多拒一点，也不冒政策风险。换成你如果站在 OpenAI 的位置，面对全球 2 亿用户，你也会这么选。

但你的产品不服务 2 亿普通用户。你服务的是律师、合规官、医生、安全研究员——他们专业就是问这种问题的人。GPT 的默认策略在这些场景下变成了阻碍。

Hermes，就是为这个缺口而生的一个选项。

这章讲清楚三件事：Hermes 到底是什么东西、背后的团队 Nous Research 是谁、为什么值得单独开一门课学它。

1. 先把名词理清楚

Hermes 是一个模型系列，不是一个产品、不是一家公司、不是一个框架。

开源权重模型 (open-weight model) —— 你可以直接下载它的"大脑文件"（权重，.safetensors 或 .gguf），在自己的电脑 / 服务器上跑，不用调任何人的 API。对比 GPT-4o / Claude 这种只能付费调 API 的闭源模型。

简单类比：闭源模型像 Spotify（你只能听，不能下载文件）；开源模型像 MP3（你拿到文件，想怎么播放都行）。

Hermes 家族是 Nous Research 发的，基于 Meta 的 Llama 模型做的微调。

微调 (fine-tuning) —— 在一个已经训好的大模型上，用新数据再"训"一轮，让它学会特定风格或任务。

类比：像公司新招的毕业生，底子（通用知识）已经有了，再做 2 周岗前培训学业务。训练一个 Llama 那种规模的模型要烧上亿美金，但微调一个版本只要几万到几十万美金。

所以你要记住一件事：Llama 是底子，Hermes 是装修过的房子。Meta 出的是毛坯（虽然毛坯也能住人——Llama Instruct 版就是 Meta 自己装修过的），Nous Research 出的是换了装修风格的版本。

目前最新的是 Hermes 4，2025 年 8 月 26 日发布。三个版本：

版本	参数量	基座	发布日期
Hermes 4 14B	14B	Llama 3.1 14B	2025-08-26
Hermes 4 70B	70B	Llama 3.1 70B	2025-08-26
Hermes 4 405B	405B	Llama 3.1 405B	2025-08-26

选哪个后面会讲，现在只要记住：14B 塞得进 MacBook M2，70B 要 M3 Max，405B 要云上跑。

2. Nous Research 是谁

一个不到 20 人的团队，总部在纽约。核心是 Teknium (Ryan Teknium) 和 Shivani Mitra。2023 年成立，靠社区和 Twitter 起家，没拿顶级 VC 的钱，但拿到了云厂商的 GPU 赞助（所以能烧 192 张 B200 训 Hermes 4）。

他们的哲学值得单独说一句。主流大厂的 RLHF（基于人类反馈的强化学习）策略是："让模型听话，少出事"。Nous 的做法是："让模型听调用方的话，把策略选择权还给使用者"。

RLHF (Reinforcement Learning from Human Feedback) —— 让人给模型的回答打分，模型学着往"高分"的方向调。

直白说：就是给模型请了一批"审稿人"，模型慢慢学会"什么样的回答审稿人会点赞"。审稿人由谁来选、给什么指令，就决定了模型最后的"性格"。

OpenAI 和 Anthropic 请的审稿人指令偏"避免任何风险"，Nous 请的指令是"避免明确违法或明确有害"。两者结果就差很多。

顺便吐一句：Nous Research 也不是"无政府主义"——他们有 safety 训练，有 red team，只是拒绝的触发条件不一样。这个点第 4 章会单独展开。

3. Hermes 3 到 Hermes 4，发生了什么变化

去年用过 Hermes 3 的朋友这节可以跳着看。没用过的话这里稍微对比一下：

维度	Hermes 3 (2024-08)	Hermes 4 (2025-08)
后训练语料规模	~1M 样本 / 1.2B tokens	~5M 样本 / 60B tokens（×5）
Reasoning	隐式	Hybrid — 可切 think/fast
Tool calling	原生 `<tool_call>`	同 + multi-turn 更稳
Context window	128K	128K（没变）
训练硬件	A100 集群	192× NVIDIA B200

最值得提的是 Hybrid Reasoning——同一个模型权重里训进了两种"思考模式"：

Fast mode：直接出答案。日常对话、tool call 决策、代码生成用这个。
Think mode：先在 <think>...</think> 里一步步推理，再出答案。数学题、复杂规划、长文档分析用这个。

怎么切？改 system prompt 里一个字段就行，不用部署两个模型。这对 Agent 应用是个大事——规划节点开 think、执行节点开 fast，token 费用和延迟都能省一半。第 5 章会细讲。

4. 所以，为什么单独学它？

做 LLM 应用的人迟早要回答三个问题。这三个问题恰好对应 Hermes 的三个卖点：

问题 1：能不能脱离 OpenAI 生态？

有一天 OpenAI 把 API 涨价 3 倍 / 突然改了 TOS / 拒绝给你的行业提供服务——这是你必须想好的场景。Hermes 权重完全开放，你可以把它部署在自己的 AWS / 自己的机房 / 甚至自己的 MacBook 上。不能说"只有 Hermes 一家"，但它是现在最成熟的一条开源替代路线。

问题 2：Tool calling 到底稳不稳？

Hermes 3 开始，<tool_call> JSON 格式是训进权重的，不是靠 prompt engineering 硬凑。对比 Llama 3.3 Instruct 同样场景下 tool call JSON 错误率 ~8%，Hermes 3 能做到 <2%。Hermes 4 进一步在 multi-turn tool use 场景下提升。这意味着你可以拿 Hermes 当 GPT function calling 的直接替代，不用再写一堆正则 parser 兜底。

问题 3：refusal 策略是否卡你业务？

前面说过的痛点。Hermes 4 在 RefusalBench（专门测"本该答却拒答"的评测集） 上拒答率 42.9%，GPT-4o 是 82.3%——差了一倍。不是 Hermes 更"危险"，是拒绝的触发条件更有选择性。

如果你做的产品是：法律/合规/安全研究/医疗决策/金融分析，那 Hermes 是值得认真评估的选项。如果你做的是 C 端客服 bot、儿童教育产品——那 Hermes 的低 refusal 反而是风险，保留 Llama 或 GPT 的中高 alignment 更稳。

5. 我们的经验

第一次上 Hermes 是 2024 年底，给悉尼一家律所做内部法律文档分析工具。客户律师抱怨"GPT 老是 refuse"——投诉率 12%。我们把底层 LLM 从 GPT-4o 切到 Hermes 3 70B，走 OpenRouter，两周内投诉率降到 1.5%。月费从 ~$3000 降到 ~$800。

但 Hermes 不是万能的，我们踩过几个坑：

中文能力不如 Qwen —— 那个项目的中文支持版本（澳洲华人律所）我们最后是 Hermes 做主干推理 + Qwen 2.5 做中文润色 sub-call。Hermes 的 Llama 基座中文语料占比本来就低，强求中文表现得不偿失。
Hermes 4 刚出时 Ollama 官方还没上 tag —— 社区 GGUF 质量参差，生产等了 2 周官方版才敢切。学习用可以，生产急着切有风险。
Guardrails 不能省 —— refusal 低意味着你要自己把关。上线前一定要接 Llama Guard 做输出过滤（第 12 章专门讲）。

说实话 Hermes 是"你挑对了场景才爽"的工具。不挑对场景，Hermes 的特殊卖点反而变成运营负担。

6. 下一步

下一章讲 Hermes vs Llama / Qwen / DeepSeek / GPT 的横向选型——如果你还在犹豫"到底用哪个"，那章会给一张按场景的决策表。

急着动手的话跳第 6 章【本地跑 Hermes】，20 分钟 Ollama 跑起来 8B 版本。

想理解它为什么 refusal 这么低的话，第 4 章【Neutral Alignment】把话挑明。

关键资源：

Hermes 4 Technical Report (PDF) —— 唯一权威的训练细节来源，70 页，英文
NousResearch on Hugging Face —— 所有模型权重下载入口
Hermes 3 arXiv 论文 —— 想深入看架构设计的话