自学编程遇到瓶颈怎么办？

遇到瓶颈是正常的。建议：1. 动手做项目 (Project-based Learning)，不要只看视频；2. 善用 AI 助手 (如 Cursor, ChatGPT) 解释代码和逻辑；3. 加入全球技术社区 (如 Discord, GitHub) 与他人交流；4. 拆解大问题为小模块逐个击破。

如何构建一个具备全球竞争力的开发者作品集 (Portfolio)？

优秀的 Portfolio 不在多而在精。包含 2-3 个完整的、已上线的项目 (Live Demo) 最佳。每个项目应包含：GitHub 源码链接、在线演示地址、以及一份中英文 Readme 文档说明解决了什么问题、使用了什么技术栈。

LLM evaluation

evaluation prompts（overview）

evaluation 的核心是：把评判标准写得足够清晰，让 LLM 以 judge 的角色给出可解释的比较或打分。目标不是“找一个完美答案”，而是建立稳定、可复用、可审计的评估流程。

学习路径（建议顺序）

入门：固定评分维度与输出格式
进阶：引入 rubric 与权重
实战：用评估结果驱动迭代

什么是 Evaluation Prompt？

Evaluation Prompt 是一种让模型扮演评审/裁判的提示方式，用于比较输出质量、给分、并说明理由。

┌─────────────────────────────────────────────────────────────┐
│                    Evaluation Prompt 流程                   │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   候选输出   →   评估标准   →   评分/排序   →   解释与建议    │
│  (A/B/多份)     (Rubric)       (分数/排名)     (改进方向)    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

为什么 Evaluation 很重要？

应用场景	具体用途	业务价值
Prompt 迭代	选择更优版本	降低试错成本
内容生产	文案/摘要质量评估	提升一致性
模型对比	不同模型输出对比	辅助选型
标准化输出	自动打分与筛选	提升效率

业务产出（PM 视角）

使用 Evaluation Prompt 可以交付：

可量化对比结果（A/B 输出排名）
评估模板（可复用 rubric）
改进建议（用于 prompt 迭代）

完成标准（建议）：

读完本页 + 完成 1 个练习 + 自检 1 次

核心 Prompt 结构

目标：评估候选输出
标准：评分维度与权重
格式：输出结构（分数/理由/结论）
输入：候选答案

通用模板

你是严格评审，请根据以下评分标准比较输出。

评分标准（每项 1-5 分）：
1) 准确性
2) 清晰度
3) 完整性

候选输出：
A: {output_a}
B: {output_b}

输出格式：
- 分数：A=?, B=?
- 赢家：
- 理由（1-3 条）：

Quick Start：A/B 对比

请比较两个回答，基于“准确性、清晰度、完整性”打分（1-5）。

A：答案 1
B：答案 2

示例 1：写作质量评估

评估以下两条产品文案，标准：简洁性、打动力、信息完整度。

A：轻便耐用，适合旅行。
B：超轻设计，30L 大容量，城市与旅行双场景。

示例 2：摘要质量评估

评估两个摘要，标准：覆盖关键点、表达清晰、不引入新信息。

示例 3：结构化评分（Rubric）

评分维度：
1) 准确性（40%）
2) 可读性（30%）
3) 结构性（30%）

输出：
- 总分（0-100）
- 分项得分
- 赢家

迁移模板（替换变量即可复用）

标准：{criteria}
候选：{outputs}
输出：分数 + 赢家 + 理由

自检清单（提交前自查）

评分维度是否清晰可执行？
是否避免模型引入新信息？
输出是否固定结构？
是否支持自动化解析？

进阶技巧

权重评分：不同指标赋予权重。
先给分再解释：避免理由反向影响评分。
三轮评估：多次评估取平均，减少偏差。
对齐目标：评分标准与业务目标一致。
输出改进建议：便于直接迭代。

常见问题与解决方案

问题	原因	解决方案
评分不一致	标准模糊	明确维度描述
输出冗长	无格式限制	固定字段
引入新信息	未限制	加“只基于输入”
过度主观	缺少 rubric	设计评分表

动手练习

练习 1：A/B 评估

评估两条课程简介，标准：清晰度、吸引力、信息完整度。

练习 2：多候选排序

对 3 个回答进行排序，并给出理由。

练习评分标准（学生自评）

维度	合格标准
标准清晰	评分维度可执行
输出稳定	分数与理由结构一致
可复用	Rubric 可替换
可解析	输出可程序处理

Index

/learn/prompt-master/prompt-evaluation-plato-dialogue

小结

Evaluation Prompt 的关键是可执行评分标准。
固定输出结构便于对比与自动化。
Rubric 能显著降低主观偏差。
输出建议可直接用于 prompt 迭代。
模板化提升复用效率。

Prompt 大师