掌握和 AI 对话的艺术
evaluation prompts(overview)
evaluation 的核心是:把“评判标准”写得足够清晰,让 LLM 能以 judge 的角色给出可解释的 comparison(或 rubric scoring)。