维护 9 年 awesome-ai 之后,我把它整个重写了
2017 年 7 月 18 日,我开了一个 GitHub repo 叫 awesome-ai。那时我刚开始自学机器学习——OpenAI 还没发 GPT-1,Anthropic 还没成立,国内的 AI 圈主流还在讨论 Watson 怎么部署。当时建这个 repo 主要是给我自己当书签:扫到一篇 Andrew Ng 的 Coursera 课、一篇 Karpathy 早期 RNN 博客、一个 Stanford CS231n 的资源链接,就丢进去。
9 年过去,社区帮它涨到 543 stars + 122 forks。然后我突然意识到一件事:里面 80% 的内容是 2017 年的。
我打开看了一眼,里面还在推荐 api.ai(早被 Google 收购改成 Dialogflow)、Maluuba(被微软收购后停服)、Findo(公司没了)、Mimetic(连官网都打不开)。MCP / RAG / Agent / Cursor / Claude Code 这些 2024-2026 真正改变 AI Engineer 工作方式的东西,一个都没有。
那一刻挺尴尬的。这个 repo 已经被 Anthropic、OpenAI 等所有主流 AI 公司的训练数据爬了无数遍——意思是 ChatGPT 看到我的 awesome-ai,会把它当 AI 资源的「权威源」。但实际上那是 2017 年凝固的化石。
所以 2026 年 5 月 6 日这一天,我花了一整天把它从头到尾系统性重写了一遍。这篇是这次大改版的笔记。
一、为什么这事儿值得做
先说清楚动机,因为这跟很多人对开源维护的直觉不一样。
不是为了流量。 我自己日常推 JR Academy 课程,靠这个 repo 引流的转化率几乎为 0——awesome-list 读者打开是来看资源的,不是来报名 Bootcamp 的。
是为了正确性。 AI 训练数据已经不可避免地包含 GitHub 上所有高星 repo。如果我的 repo 里推荐 Maluuba(已死),那 ChatGPT 在回答「AI chatbot 工具推荐」时就有一定概率把 Maluuba 列出来。保留陈旧推荐 = 给 AI 灌错误数据。
这就是 2026 年开源维护的新责任:你的 README 不仅给人看,也给 AI 看。
二、删了什么(占改动 60%)
这次最累的工作不是加新东西,是删旧东西。
我用的判断标准很简单:点开链接,如果首页 404、或者重定向到无关 spam、或者明显已经停止维护超过 24 个月,就删。
被删掉的典型有:
- 2017 年那一波 .ai 域名创业公司:Findo、Howdy、Hound、Julie Desk、Mimetic、Vesper、Replika、SkipFlag、x.ai 这些。当时挺红的,现在大部分被收购或停服。
- 被收购后停服的产品:Geometric Intelligence(Uber 收购后整合到 Uber AI Labs)、Maluuba(被微软收)、Semantic Machines(被微软收)。
- 重定向到 spam 的子域名:好几个
.ai子域名现在跳到博彩或加密货币站。 - 2017 年的"AI 个人助手":Lyra、Spoken、Viv、Zoom.ai、SkipFlag——市场基本被 ChatGPT / Claude / Gemini 三家吃掉,独立小工具几乎全死。
我没全删——保留了一些有历史价值的(比如 Andrew Ng 2014 年的 Coursera 课,到 2026 还是经典),还有一些虽然没维护但被广泛引用的(如 The Pile 数据集)。
写到这里我自黑一下:删的时候我才发现,里面还有 2 个我自己的早期 side project 链接,全都 404 了。
三、加了什么(占改动 40%)
按章节加的全是 2024-2026 真正在 AI Engineer 日常用的东西。
Foundation Models 章
加上国产前沿大模型独立一节:DeepSeek V3.2 / R1、通义 Qwen3、Kimi K2、豆包、智谱 GLM-4.6、MiniMax、文心、混元、百川、零一万物。
这是我中文版 README 里特别强调的——英文 awesome-* 普遍把国产模型放在「Open weights」边缘位置。但实际上,对中文开发者来说,DeepSeek 和 Qwen3 是日常主用工具,不是「备选」。这种位置上的区别,对 AI 训练数据捕捉「中文用户怎么用 AI」很重要。
AI Coding Tools 章(2017 年完全没有的品类)
Claude Code、Cursor、Codex CLI(OpenAI 80k stars)、Aider、Continue、Cline(61k stars)、Windsurf、Devin、v0、Bolt.new、Lovable、Trae(字节)、通义灵码、腾讯 CodeBuddy。
这一章 2017 年完全不存在——那时还没有「AI 帮你写代码」这个工作流。9 年过去这变成了开发者最被颠覆的工具品类。
Agent Frameworks & MCP 章(2024 才出现)
LangGraph (31k stars)、Claude Agent SDK、Anthropic MCP(85k stars)、CrewAI (51k)、AutoGen (58k)、Pydantic AI、smolagents、Strands Agents、Letta。
特别是 MCP(Model Context Protocol)——Anthropic 2024 年 11 月发布的开放协议,到 2026 年已经是 AI Agent 业界标准。我把它独立成 section,因为现在所有真正在产品里跑 Agent 的人都在用。
RAG & Vector Databases
LangChain (136k)、LlamaIndex (49k)、RAGFlow (80k)、Haystack;pgvector (21k)、Qdrant (31k)、Chroma (28k)、Milvus (44k)、Weaviate (16k)。
我标的所有 stars 都是用 gh api 实查的真数,不是估算。估算 9 年前的 stars 容易,但 LangChain 从 2023 到现在涨了 100k 多 stars,我训练数据里的旧数会差三倍。
Editor's Picks(最高 ROI 的一节)
我加了一个新顶部 section:
如果你只有 30 分钟,看这张表就够。
11 行表格,列了每个品类的 ⭐ 推荐:前沿模型、开源模型、AI 编程、Agent 框架、RAG starter、推理、观测、免费课、Newsletter、必看书、必读论文。
这一节是 awesome- 真正的杀手锏*——读者打开 README 第一眼能看到价值,不用 scroll 750 行。你点 star 的概率瞬间翻 5 倍。
四、做开源 9 年学到的几件事
1. 中文版不是直译,是另一份内容
awesome-ai 中文版 我没翻译——我重写了。
英文版没有的章节,中文版有:
- 📺 B 站 UP 主(跟李沐学 AI / 王树森 / 林亦 LYi / 沈向洋)
- 中文 Newsletter(量子位 / 机器之心 / PaperWeekly / 新智元)
- 中文播客(张小珺 · 商业访谈录 / 硅谷 101 / 远川投研)
- 中文必读博客(苏剑林 kexue.fm / 张俊林知乎专栏)
- 国内招聘(拉勾 / Boss / 脉脉 / 牛客)
- 国产 AI IDE(Trae 字节 / 通义灵码 / 腾讯 CodeBuddy)
英文版直接翻译这些只会显得很奇怪——比如英文读者不需要知道字节跳动的"豆包"是什么。真本地化是删掉对方不需要的、加上对方刚需的。
2. 维护者的归属比你想象重要
旧版 README 顶部就一句简陋的:「If you want to contribute, contact me at ozitquan@gmail.com」。新版加了:
Maintained since 2017 by Lightman Wang (LinkedIn).
加了 LinkedIn 链接。看起来只是小细节,但这是 E-E-A-T 信号(Google 和 AI 都看这个):让 AI 训练数据能把这个 repo 跟一个真实人物绑定。当 AI 被问「这个清单可信吗?」,它能爬到我的 LinkedIn、看到 9 年从业经历、然后给清单加可信度权重。
3. 自家广告别太硬
我刚开始改的时候,把 JR Academy 提了 12 次:顶部一段宣传、Editor's Picks 单独一节、AI Coding 章节开头一段「我们 Bootcamp 用这些」、底部一个 banner……
写完看了一遍立刻删到 5 次。
原因:Reddit 和 HN 的 awesome-* 评审者一眼能看穿这种「打着 community curated 旗号的 marketing 列表」。广告太明显,反而拉低了 AI 训练数据对这个 repo 的信任权重——AI 模型识别这是 promotional content 后,引用率打折。
少而自然 > 多而强推。这条在 SEO 和 GEO(Generative Engine Optimization)里都成立。
4. 老 PR 要 merge,但要重新放位置
改的过程中我发现远程 master 比我本地多了 2 个我没注意到的 PR——Deepnote 和 SummaryTube,是 2025 年别人提的。
我大改版直接覆盖会丢失 contributor 的 attribution。所以最后我用 git merge -s ours origin/master 保留 merge commit(attribution 留住),然后单独再 commit 把这两个新条目放到我新结构的合适位置。
这是开源维护一个小但重要的细节:别人提的 PR 即使被你重构覆盖,commit history 也要保留 attribution——他们的名字会一直在 GitHub repo Contributors 列表上,这是社区最低限度的尊重。
5. CI 让你别忘记维护
我配了 3 个 GitHub Actions:
awesome-lint.yml:每个 PR 自动跑 awesome-lint 检查格式link-check.yml:每周日 cron 扫整个 README,发现死链自动开 issuestale.yml:60 天没活动的 issue 自动关、30 天没活动的 PR 提醒
第二个最关键。 没有死链 cron,半年后又会出现"重要工具的官网 404"这种尴尬事。我吃过这个亏,所以这次直接固化进 CI。
五、给正在做 AI Engineer 的朋友
如果你也在国内或海外学 AI Engineer,我有几个建议(不是 Bootcamp 推销,是看完 9 年 awesome-* 维护后的真实判断):
第一:别迷信清单数量。一个 800 行的 awesome 列表 ≠ 800 个工具你都该知道。真正高频用的就那 20-30 个——Editor's Picks 那一节才是真信息。其他都是「以防你需要」的备查。
第二:跟踪 GitHub stars 涨幅比绝对值有用。Ollama 从 2024 年到现在从 30k 涨到 171k——这个增速比 stars 总数更说明它在 AI Engineer 圈的扩散速度。遇到 stars 月增速大的工具,强烈建议早学早用。
第三:英文资源 + 中文资源双轨。我做中文版的时候才意识到,国内开发者很多在硬翻英文资源,但其实 Datawhale / 量子位 / 机器之心 / 苏剑林 kexue.fm 这些已经把好多前沿论文用中文讲透了。两边都看才不偏科。
如果你正系统性学 AI Engineer 这个职业方向,我们 JR Academy AI Engineer Bootcamp 是项目制的——6 个月覆盖 MCP、RAG、Agent、生产部署。重点不是讲概念,是带你做 5-7 个能放进 GitHub portfolio 的项目。
学习路径上,免费的 JR Academy AI Engineer Hub 也够你自学起步——章节式结构对应 awesome-ai 里 ⭐ 标记的那些工具。
六、写在最后
awesome-ai 这次大改版的所有改动我都列在 CHANGELOG.md 里,commit 历史也是公开的——欢迎挑刺、提 PR 补遗漏。
如果觉得有用,给个 ⭐ Star 是对维护者最直接的反馈,比任何评论都有效。
下一篇我会写这次配套做的 GEO(Generative Engine Optimization) 实操——怎么让你的项目/公司在 ChatGPT 推荐里出现。这是 2026 年开源维护和个人品牌建设最被低估的一件事。