logo

RAG 工程师

RAG Engineer

技术岗爆发增长2024 大规模招聘

构建和优化检索增强生成 (RAG) 管线,将 LLM 连接到企业知识库——设计向量搜索、文档切分、Embedding 策略和检索逻辑,让 AI 基于真实的公司数据回答问题而非编造答案。任何拥有私有数据的企业(银行、媒体、医疗、律所)都需要这个角色。澳洲四大行和新加坡金融机构目前是亚太区最大雇主。

💰
薪资范围$120K–$200K+
🏢
招聘企业Pinecone · Microsoft · ANZ Bank
🌍
热门地区
美国澳洲新加坡英国印度
核心技能向量数据库 · Embedding · LLM

岗位 JD 分析

核心职责

  • 设计和构建企业级 RAG 管线:文档摄入→切片→Embedding→向量存储→检索→生成
  • 优化检索质量:调优 Chunk 策略、Embedding 模型选型、重排序算法和混合检索
  • 将 RAG 系统与企业知识库(Confluence、SharePoint、内部 Wiki)对接,处理多格式文档
  • 建立 RAG 系统的评测框架,监控召回率、准确率和幻觉率等核心指标
  • 与安全团队协作,实现文档级权限控制,确保用户只能检索到授权范围内的内容

必备要求

  • 精通至少一种向量数据库(Pinecone、Weaviate、Qdrant、Milvus)的部署和调优
  • 深入理解 Embedding 模型(OpenAI、Cohere、BGE)及其在不同语言/领域的表现差异
  • 3+ 年 Python/TypeScript 工程经验,熟悉 LangChain 或 LlamaIndex
  • 掌握文档处理技术:PDF 解析、OCR、表格提取、Markdown 转换
  • 有生产环境部署经验,能处理百万级文档的性能和成本优化

加分项

  • 有 Elasticsearch 或 Solr 等传统搜索引擎经验
  • 了解 GraphRAG 和知识图谱增强检索
  • 熟悉金融/法律/医疗等行业的文档结构和合规要求

典型的一天

上午:检查 RAG 管线的夜间同步日志,修复文档摄入失败的问题
上午:分析用户反馈中的"AI 回答不准确"案例,定位是检索问题还是生成问题
下午:测试新的 Chunk 策略——对比按段落、按语义和按滑动窗口三种切片方式
下午:和安全团队一起实现基于文档标签的权限过滤逻辑
傍晚:评估新发布的 Embedding 模型在中文文档上的检索效果

转型建议

适合转入的背景

搜索引擎 / 信息检索工程师:核心技能高度重合,最快可转型后端工程师:有数据管线和 API 开发经验,补充 Embedding 和向量知识即可数据工程师:熟悉 ETL 和数据处理,文档处理管线是自然延伸NLP 工程师:有文本处理和语义理解基础,直接进入深水区

转型路径

  1. 第 1 步:学习 Embedding 原理和向量相似度搜索基础,完成向量数据库入门教程
  2. 第 2 步:用 LangChain + Pinecone 搭建一个简单的问答 RAG 原型
  3. 第 3 步:深入学习 Chunk 策略、混合检索(关键词+向量)和重排序技术
  4. 第 4 步:在真实数据集上优化 RAG 管线,建立评测 Benchmark(召回率、NDCG)
  5. 第 5 步:完成一个生产级 RAG 项目(如企业知识库问答),准备面试作品集

学习路线图

Phase 1: 基础 (1-2 月)

理解 Embedding 原理、向量空间和相似度度量学习向量数据库基础操作(CRUD、索引、查询)用 LangChain 搭建第一个 RAG 原型项目

Phase 2: 核心技术 (2-4 月)

深入 Chunk 策略:固定窗口、语义切片、递归切片掌握混合检索:BM25 + 向量检索 + 重排序(Cohere Rerank)学习多格式文档处理:PDF、Word、HTML、图片 OCR实现 RAG 评测框架:RAGAS、TruLens 等工具

Phase 3: 生产实战 (4-6 月)

构建百万级文档的 RAG 系统,优化性能和成本实现权限控制、增量同步和缓存策略探索 GraphRAG 和 Agentic RAG 高级架构

常见误区

误区

认为 RAG 就是把文档丢进向量数据库,然后查询就行

正解

Chunk 策略、Embedding 选型、检索重排序每一步都影响最终质量,需要精细调优

误区

只用向量检索,忽略关键词检索

正解

混合检索(向量 + BM25)在大多数场景下效果优于纯向量检索

误区

不做评测就上线,靠手动测试几个问题判断效果

正解

必须建立自动化评测集,持续监控召回率和准确率

推荐学习资源

准备好了吗?

开始学习 RAG 工程师 所需的核心技能