自学编程遇到瓶颈怎么办？

遇到瓶颈是正常的。建议：1. 动手做项目 (Project-based Learning)，不要只看视频；2. 善用 AI 助手 (如 Cursor, ChatGPT) 解释代码和逻辑；3. 加入全球技术社区 (如 Discord, GitHub) 与他人交流；4. 拆解大问题为小模块逐个击破。

如何构建一个具备全球竞争力的开发者作品集 (Portfolio)？

优秀的 Portfolio 不在多而在精。包含 2-3 个完整的、已上线的项目 (Live Demo) 最佳。每个项目应包含：GitHub 源码链接、在线演示地址、以及一份中英文 Readme 文档说明解决了什么问题、使用了什么技术栈。

Hermes vs Llama / Qwen / DeepSeek / GPT — 选型地图

⏱️ 25分钟

Hermes vs Llama / Qwen / DeepSeek / GPT — 选型地图

"到底用哪个模型"是 AI 工程师每周都要被问一次的问题。

产品经理问、技术合伙人问、客户 CTO 问。大多数人听到 Hermes 第一反应是："它和 Llama 3 比有啥区别？跟 Qwen 2.5 呢？比 DeepSeek 强吗？"

这章不给 benchmark 榜单——榜单谁都能查。这章给的是按你实际的业务场景，怎么选。

读完你应该能在 5 分钟内给团队一个有把握的答复："我们的场景是 X，所以选 Y，理由是 Z"。

1. 五条路线，先定个基本盘

开源路线
├── Llama 系列      — Meta 出品，开源基石
├── Hermes 系列     — Llama 的微调版（本课程主角）
├── Qwen 系列       — 阿里出品，中文最强
└── DeepSeek 系列   — 杭州深度求索出品，推理能力第一梯队

闭源路线
└── GPT-4o / Claude — OpenAI / Anthropic，综合最强，最贵

先来一张全景对比表，后面分别展开：

模型	权重开放	旗舰参数	中文	Tool Calling	Refusal	代表价位 (per 1M token)
Hermes 4	✅	405B	中	⭐⭐⭐⭐⭐	低	$0.40 / $0.60 (70B)
Llama 3.3 Instruct	✅	70B	中下	⭐⭐⭐	中高	$0.12 / $0.30
Qwen 2.5	✅	72B	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	中	$0.25 / $0.50
DeepSeek V3 / R1	✅	671B MoE	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	中下	$0.14 / $0.28 (V3)
GPT-4o / Claude 3.7	❌	未公开	优	⭐⭐⭐⭐⭐	高	$2.50 / $10.00

打分是我们过去一年在生产环境里的主观感受，不是 benchmark 分数。Benchmark 能骗人，生产用久了才知道真相。

2. 按场景选

下面这几个场景覆盖了 90% 的实际项目。对号入座。

场景 A：做 Agent，需要稳定的 tool calling

首选：Hermes 4 70B 或 DeepSeek V3

为什么不选 Llama 3.3 Instruct？我们测过——在连续 10 步的 multi-turn 带工具调用里，Hermes 4 的 JSON 格式错误率稳定在 <2%，Llama 3.3 Instruct 在 ~8%。

这 6% 的差距在单次调用看不出来，但在 Agent 里累积起来就是崩溃率。10 步 Agent，Hermes 成功率约 82%，Llama 约 43%——体验上是"跑完了"和"跑一半崩了"的区别。

DeepSeek V3 tool calling 也很稳，但它是 671B MoE 架构——

MoE (Mixture of Experts) —— "专家混合模型"，虽然总参数 671B，但每次推理只激活 ~37B。

类比：公司里有 100 个专家，但每个任务只喊 5 个相关专家来开会。理论上很聪明，但你要雇 100 个人的工资。自托管要至少 8× H100，小团队根本扛不住。

所以 DeepSeek V3 基本只能用官方 API，没法自托管。如果你需要可部署 + tool calling 强，Hermes 70B 是平衡点。

场景 B：纯中文业务

选 Qwen 2.5 72B 或 DeepSeek V3

说个我们真踩过的坑：最早做一个澳洲华人客户的法律 RAG，头铁用 Hermes 3 跑中文，结果输出里夹着英文单词、语气生硬、偶尔出现繁体字和简体字混排。改成 Qwen 2.5 后，中文质量瞬间升了一个档次。

为什么？Hermes 的底子是 Llama 3.1，Llama 训练时中文语料占比 <10%。Qwen 是阿里做的，训练时中文占比 40%+。这不是微调能抹平的差距。

所以我们现在的做法：中文业务用 Qwen 做主干，Hermes 做 tool calling 或 reasoning sub-call。最终输出再回到 Qwen 润色一遍。两个模型各司其职。

场景 C：不能把数据发给 OpenAI / 合规场景

Hermes 4 是最合适的选择

三个原因：

权重完全开放 —— 能部署在自己的 VPC / 客户的 on-prem 机房
License 商用友好 —— Llama Community License 的衍生，商用没问题
Refusal 低 —— 法务 / 医疗 / 安全研究这类业务场景，用户本来就是要问敏感问题的专业人士

Llama 3.3 也能自托管，但 refusal 重，面对专业用户会卡流程。Qwen 在中国境外的合规场景可能被客户嫌弃（数据主权顾虑）。

综合下来 Hermes 4 是最稳的选择。

场景 D：就想要便宜的 GPT 替代，做通用 chatbot

选 Llama 3.3 Instruct 或 Qwen 2.5，不要选 Hermes。

这个建议听着反直觉——Hermes 不是"升级版 Llama"吗？为什么反而不推？

因为 Hermes 的 "neutral alignment" 是针对专业场景优化的。你做一个 C 端客服 bot，用户会问各种乱七八糟的东西——Hermes 默认就"愿意答"的策略反而让你天天做 guardrails。

Llama 3.3 Instruct 的 alignment 是中等偏保守，C 端场景反而更省心。价格也便宜：OpenRouter 上 $0.12/M input tokens，大约是 Hermes 4 70B 的 60%。

选模型要对应场景，不是选"最贵"或"最热门"。

场景 E：reasoning-heavy（数学、代码、定理证明）

这一档推荐顺序是：DeepSeek R1 > Hermes 4 405B (think mode) > Qwen 2.5-Max

DeepSeek R1 是 2025 年上半年最火的开源推理模型，AIME 2024 考到 79.8%。Hermes 4 405B 开了 think mode 能到 81.9%，但 Hermes 70B 只有 ~65%——在推理这一档参数量很重要。

坦白说，reasoning 任务我们一般直接上 DeepSeek R1——它专门为这个场景训的，用起来最顺手。Hermes 4 是"通用 + reasoning 能切换"的路线，单论推理能力不如专门派。

场景 F：最前沿、长 context 1M+、多模态

还是用 GPT-4o / Gemini 2.5 / Claude 3.7，开源还没追上。

不是我们替闭源厂商站台——是现实。Gemini 2.5 Pro 的 1M context 真的能稳定发挥，Hermes 4 的 128K context 在 >96K 之后召回率会明显下降。多模态那就更不用说了，开源多模态模型和闭源之间还有 1 年以上的代差。

所以如果你的业务卖点就是"处理 500 页合同"或"看懂复杂图表"，老实上闭源。等开源追上再省钱。

3. 一张决策树

要 tool calling 吗？
│
├─ 是 → 能自托管吗？（有 A100/H100 预算）
│       ├─ 能 → Hermes 4 70B
│       └─ 不能 → OpenRouter 上调 Hermes 4 70B / DeepSeek V3
│
└─ 否 → 中文为主吗？
        ├─ 是 → Qwen 2.5 72B
        └─ 否 → refusal 能忍吗？
                ├─ 能 → Llama 3.3 Instruct 70B（最便宜）
                └─ 不能 → Hermes 4（就是为这个设计的）

记这个图比记五条路线的参数量有用。

4. 我们的经验：四个真实项目的选型

列一下过去一年做过的 4 个项目，最终选了哪个，为什么：

项目	业务	最终选型	理由
法律文档分析	悉尼律所内部工具	Hermes 3 70B（本地 A100）	不能发数据给 OpenAI，refusal 要低
面试 AI 助手	学生社区 SaaS	GPT-4o + Llama 3.1 70B	需要前沿能力，中文+英文混用，成本敏感时 fallback
中文客服 bot	墨尔本电商	Qwen 2.5 72B	中文第一，refusal 中等 OK
Agent 平台 SaaS	做面向企业的 Agent	Hermes 4 70B (OpenRouter)	tool calling 要稳 + 成本敏感

共同点：没一个项目选 Claude / GPT 做主力。不是这俩不好——是它们太贵，上面四个都是成本敏感的业务。

四个里 Hermes 占两个，但都不是因为 Hermes "全能"——都是因为那两个项目的具体需求 Hermes 刚好对得上。

5. 下一步

决定了选 Hermes？跳第 3 章【Hermes 架构】深入技术细节，或者第 6 章【本地跑 Hermes】动手跑一个。

还在犹豫成本？第 11 章【部署成本对比】把账算透——per-token API / Dedicated Endpoint / 自托管三条路各值多少钱。

暂时不选 Hermes 也没关系——至少现在你在群里被问"为啥不选 Hermes"能答得上来了。

关键资源：

OpenRouter 模型对比 —— 各模型实时价格和速度
Artificial Analysis Leaderboard —— 相对靠谱的跨模型性能对比榜
Qwen 2.5 官方 benchmark —— 中文场景对比时用得上