自学编程遇到瓶颈怎么办？

遇到瓶颈是正常的。建议：1. 动手做项目 (Project-based Learning)，不要只看视频；2. 善用 AI 助手 (如 Cursor, ChatGPT) 解释代码和逻辑；3. 加入全球技术社区 (如 Discord, GitHub) 与他人交流；4. 拆解大问题为小模块逐个击破。

如何构建一个具备全球竞争力的开发者作品集 (Portfolio)？

优秀的 Portfolio 不在多而在精。包含 2-3 个完整的、已上线的项目 (Live Demo) 最佳。每个项目应包含：GitHub 源码链接、在线演示地址、以及一份中英文 Readme 文档说明解决了什么问题、使用了什么技术栈。

RAG 系统：让 LLM 知道你公司内部数据 | 匠人学院 - 学AI·AI教程·AI入门

RAG 解决的问题

LLM 训练数据有 cutoff，它不知道你公司的代码库、客户工单、产品文档、合同条款。要让它知道，有两条路：

Fine-tuning：把数据训进模型权重（贵、慢、改一次重训一次）
RAG (Retrieval-Augmented Generation)：每次提问时先去外部存储找相关内容，把找到的塞进 prompt

99% 场景选 RAG。理由：实时（数据改了立刻生效）、可控（哪条信息回答的可追溯）、便宜（不用 GPU 训练）、能权限隔离（用户 A 看不到用户 B 数据）。

RAG 的最小流程

┌─────────┐         ┌──────────┐         ┌──────────┐
│ User Q  │ ──1──▶  │ Embedding│ ──2──▶  │ Vector DB│
└─────────┘         └──────────┘         └──────────┘
                                              │ 3 (top-k)
                                              ▼
                  ┌────────────┐         ┌──────────┐
                  │ Final ans  │ ◀──5──  │   LLM    │ ◀──4── retrieved chunks + Q
                  └────────────┘         └──────────┘

用户提问转成向量
在向量库里搜相似度最高的 top-k 文档片段
拼成 prompt（基于以下资料回答：[chunks]\n用户问：[Q]）
喂给 LLM 生成最终答案
返回给用户

听起来 5 步很简单。但每一步细节都能让你 RAG 翻车——下面挨个拆。

Step 1：把文档切成 Chunks（最容易翻车的一步）

向量库存的不是整本文档，是文档切片（chunks）。切的好搜得准，切的烂答非所问。

三种切法

策略	怎么切	适合场景	翻车点
固定大小	每 500 token 切一块	长一致风格的文档	切断句子 / 切断代码块
按结构（Markdown / HTML）	按 H1/H2/H3 切	结构化文档	section 太长就废
递归切（langchain RecursiveCharacterTextSplitter）	先按章节，章节太大再按段落，再按句子	大部分场景默认	调参数烦

黄金参数（默认起手）

chunk_size = 1000       # 每块约 1000 字符 ≈ 250 token
chunk_overlap = 200     # 相邻块重叠 200 字符（防切断关键信息）

Overlap 必须有。如果一个事实横跨切片边界，没 overlap 就两块都答不全。20% overlap 是经验值。

代码（递归切）

import { RecursiveCharacterTextSplitter } from '@langchain/textsplitters';

const splitter = new RecursiveCharacterTextSplitter({
  chunkSize: 1000,
  chunkOverlap: 200,
  separators: ['\n\n', '\n', '。', '. ', ' ', ''] // 中英文混合
});

const docs = await splitter.createDocuments([fullText]);
// docs = [{ pageContent: "...", metadata: {} }, ...]

进阶：保留 metadata

每个 chunk 必须带 metadata：来源文件、页码、章节、updated_at、access_level。这些之后会救命：

{
  pageContent: "Claude Sonnet 4.6 的 input 价格是 $3/M tokens...",
  metadata: {
    source: "anthropic-pricing.md",
    section: "Sonnet pricing",
    last_updated: "2026-04-01",
    access_level: "public"
  }
}

Step 2：把 Chunk 转成向量（Embedding）

Embedding model 把一段文字映射成一个固定维度的向量（比如 1536 维），语义相近的文字在向量空间里距离近。

主流 embedding model（2026）

Model	Dimensions	$/1M tokens	备注
OpenAI `text-embedding-3-large`	3072	$0.13	综合最强、最常用
OpenAI `text-embedding-3-small`	1536	$0.02	性价比版
Cohere `embed-multilingual-v3`	1024	$0.10	多语言好
Voyage `voyage-3`	1024	$0.06	Anthropic 推荐
BGE-M3 (开源)	1024	自部署	中文好、可私有化

默认起手用 text-embedding-3-small：便宜、够好、生态最熟。中文重的项目可以换 BGE-M3 或 Voyage-3。

import OpenAI from 'openai';
const openai = new OpenAI();

const res = await openai.embeddings.create({
  model: 'text-embedding-3-small',
  input: ['Claude Sonnet 4.6 的价格是...'],
});

const embedding = res.data[0].embedding; // [0.012, -0.045, ...] 1536 维

黄金规则：query 和 doc 用同一个 model

把文档 embedding 用 model A，查询时 embedding 用 model B —— 距离计算完全没意义。听起来废话但生产环境常见 bug，特别是后期想换 embedding model 时必须重新 embed 全部文档。

Step 3：存进向量库

向量库	主打	适合
pgvector（PostgreSQL 插件）	不引入新 infra	已经在用 Postgres 的项目，<10M chunks
Pinecone	全托管、成熟	不想运维、预算够
Weaviate	自托管 + GraphQL	中型团队、需要混合查询
Qdrant	速度快、Rust 写的	高 QPS、关心延迟
Chroma	嵌入式、文件存储	本地开发、demo
MongoDB Atlas Vector Search	MongoDB 原生	已经 mongo 的项目（如匠人学院）

匠人内部 RAG 实际就用 MongoDB Atlas Vector Search——已经有 MongoDB 不想引入 Pinecone。pgvector 是另一个推荐，特别是 < 1M chunks。

pgvector 例子

-- 建表
CREATE EXTENSION IF NOT EXISTS vector;

CREATE TABLE doc_chunks (
  id BIGSERIAL PRIMARY KEY,
  content TEXT NOT NULL,
  embedding vector(1536),
  source TEXT,
  section TEXT,
  access_level TEXT,
  created_at TIMESTAMP DEFAULT now()
);

-- 建 HNSW 索引（百万级数据必备）
CREATE INDEX ON doc_chunks USING hnsw (embedding vector_cosine_ops);

-- 查询
SELECT content, source, 1 - (embedding <=> $1) AS similarity
FROM doc_chunks
WHERE access_level = 'public'    -- 权限过滤
ORDER BY embedding <=> $1         -- cosine distance
LIMIT 5;

<=> 是 pgvector 的 cosine distance 操作符。1 - distance 就是相似度（0-1）。

Step 4：检索 + 融合（最影响效果的一步）

Naive RAG 就是"top-5 相似度最高的 chunks 塞 prompt"。但真实数据下这个简单方案准确率 60-70%，离生产可用还远。

提升准确率的三连击

a. Hybrid Search（向量 + 关键词）

向量搜偏语义，关键词搜（BM25）偏精确匹配。两个一起用，融合 score。

Query: "Claude API 限流是多少 RPM？"

向量搜：找到 "Anthropic 速率限制说明..." (语义匹配)
BM25 搜：找到 "Claude API rate limit RPM..." (词匹配)

融合后 top-5 比单独哪个都好。

实现：用 Reciprocal Rank Fusion (RRF) 算法，不用调参：

def rrf_merge(vector_results, keyword_results, k=60):
    scores = {}
    for rank, doc in enumerate(vector_results):
        scores[doc.id] = scores.get(doc.id, 0) + 1 / (k + rank)
    for rank, doc in enumerate(keyword_results):
        scores[doc.id] = scores.get(doc.id, 0) + 1 / (k + rank)
    return sorted(scores.items(), key=lambda x: -x[1])

匠人简历 / 工单 RAG 用 hybrid 后准确率从 ~70% → ~88%，没换模型没换 embedding。

b. Reranking（用专门 model 把 top-50 重排成 top-5）

第一次检索用 embedding 召回 top-50（recall 优先），然后用 reranker 模型给这 50 个重新打分挑出真正相关的 top-5。

Reranker	价格	备注
Cohere `rerank-3`	$1/1K queries	最常用
Voyage `rerank-2`	$0.05/1M tokens	性价比
BGE-reranker-v2 (开源)	自部署	中文好

import { CohereClient } from 'cohere-ai';
const cohere = new CohereClient();

const reranked = await cohere.v2.rerank({
  model: 'rerank-3',
  query: userQuery,
  documents: top50Chunks.map(c => c.content),
  topN: 5
});

Reranker 是 RAG 准确率的另一个 step function。从 88% 再提到 ~94%。

c. Query Rewriting（用 LLM 改写 query 再搜）

用户问 "我能用 Claude 写论文吗？" → embedding 出来不一定匹配你库里的 "学术使用条款"。让 LLM 先改写：

原 query: 我能用 Claude 写论文吗？
改写后：
- Claude 学术写作政策
- Claude 论文使用条款
- 用 Claude 生成 academic 内容是否允许

3 个改写后的 query 各搜一次，结果合并。这一招对中文 RAG 提升尤其大（中文 embedding 比英文略弱）。

Step 5：把检索结果塞 Prompt 喂 LLM

你是匠人学院的客服。基于以下资料回答用户问题。
如果资料里没有相关信息，**直接说"这个问题我没有资料"**，不要瞎编。

资料：
[chunk 1 — 来源: pricing-faq.md]
...

[chunk 2 — 来源: refund-policy.md]
...

用户问题：{user_query}

两个生死线：

必须给"不知道时怎么办"的指令。不写的话模型会硬编。
必须带 source attribution。chunk 头部加来源标识，让模型在答案里能引用 → 用户能验证。

匠人简历功能的真实 prompt 长这样（精简版）：

你是简历优化助手。基于以下匠人内部规范回答用户问题。

规范：
[chunk 1 — 来源：resume-format-guide.md]
...

[chunk 2 — 来源：australian-resume-best-practices.md]
...

用户简历摘要：
{resume_summary}

用户问题：
{user_query}

要求：
1. 答案必须基于上面规范，不要编造
2. 每个建议后用 [来源: filename] 标注
3. 如果规范里没说，回复"匠人规范暂无该项明确建议"

一个完整的 RAG 系统架构

┌──────────────┐      ┌──────────────┐      ┌──────────────┐
│ Documents    │─────▶│ Ingestion    │─────▶│ Vector DB +  │
│ (PDF/MD/Web) │      │ (split + embed)     │ Postgres BM25│
└──────────────┘      └──────────────┘      └──────┬───────┘
                                                    │
┌──────────────┐                                    │
│ User Query   │──┬─Vector ────┐    ┌─Reranker─┐   │
└──────────────┘  ├─BM25      ─┼───▶│ top-5    │◀──┘
                  └─Rewrite ───┘    └────┬─────┘
                                         │
                                  ┌──────▼──────┐
                                  │ LLM + Prompt│
                                  └──────┬──────┘
                                         │
                                  ┌──────▼──────┐
                                  │ Final Ans   │
                                  └─────────────┘

匠人内部知识库 RAG 就是这个架构，跑了一年多，每天 1000+ 查询，准确率稳定在 90%+。

RAG 翻车清单（生产事故复盘）

症状	真因	修法
查询返回相似但答非所问	chunk 太大或没 overlap	调 chunk_size + overlap
中文 query 召回质量差	用了英文 embedding model	换 BGE-M3 或 Voyage
经常返回旧信息	metadata 没存 updated_at，没按时间排	加 metadata，retrieval 时按时间排
答案权威性不够	没 source attribution	prompt 里强制要求带 [来源: ...]
用户 A 看到 B 数据	没在 retrieval 加 access_level filter	必须按权限过滤
上下文窗口爆	top-k 设太大 / chunks 太长	减 top-k 或开 reranker 后只取 5

本章小结

RAG = embed → store → retrieve → augment prompt → generate，5 步缺一不可
chunk 切法决定召回上限，hybrid search + reranker 决定准确率上限
必须存 metadata（source / access_level / updated_at）+ 强制 source attribution
默认起手：text-embedding-3-small + pgvector + recursive splitter（1000/200）+ Cohere rerank-3
prompt 必须给"不知道时回复"的兜底指令

下一章进 Agent + Tool Use——让 LLM 不只是回答，而是去执行动作。

本章目录

Reviewer: Lightman WangFounder of JR Academy

We Accept

关于公司

关于我们元宇宙课堂新闻资讯匠人工作成为导师匠人导师联系我们匠人商店J3.Club

匠人资源

工作内推匠人活动 1对1私教行业白皮书线上学习平台面试中心分享面试经验 Internship 会员中心

AI 工具

AI 工具箱考证匠 Cert Master 求职匠 Job Hunter 牛小匠 UniMate AI

大学资源

墨尔本大学昆士兰大学新南威尔士大学悉尼大学莫那什大学阿德莱德大学 RMIT QUT UTS

移民服务

澳洲移民技术移民189/190/491 雇主担保482/186/494 投资移民188/888 英国移民美国移民加拿大移民

企业合作

P3职业孵化器 Enterprise (EN)企业培训实习合作招聘合作申请合作

求职代理

岗位代投职位监控 LinkedIn代运营 LinkedIn人脉代加了解P3项目

匠人支持

FAQs Terms & Conditions Privacy Policy Cancellation & Refund Policy Site map

Top Categories

Web全栈班 DevOps项目班数据工程全栈班数据分析项目班编程入门班 Business Analyst实习算法集训营

求职就业

BA和产品经理实习数据科学实习数据分析实习 Marketing实习简历修改面试指导导师指导VIP

地址

Level 10b, 144 Edward Street, Brisbane CBD(Headquarter)

Level 2, 171 La Trobe St, Melbourne VIC 3000

四川省成都市武侯区桂溪街道天府大道中段500号D5东方希望天祥广场B座45A13号

Business Hub, 155 Waymouth St, Adelaide SA 5000

联系方式

hello@jiangren.com.au 0421-672-555

Disclaimer

JR Academy acknowledges Traditional Owners of Country throughout Australia and recognises the continuing connection to lands, waters and communities. We pay our respect to Aboriginal and Torres Strait Islander cultures; and to Elders past and present. Aboriginal and Torres Strait Islander peoples should be aware that this website may contain images or names of people who have since passed away.

ABN 26621887572