12
性能与成本优化
性能与成本优化
生成式 AI 的请求既要快也要省。通过提示、模型、缓存等策略,能在保证质量的前提下降本增效。
快速诊断延迟来源
- 模型选择:优先使用 Claude 3.5 / GPT-4o-mini 等性价比高的模型,复杂推理再换高阶模型。
- 上下文长度:减少不必要的文件和聊天历史,重要文件用 @ 精准引用。
- 串行 vs 并行:将可并行的请求拆分,避免一次 prompt 扛所有工作。
控制 Token 与费用
- 提示前先让 AI 总结上下文,再带摘要进入正式调用。
- 让 AI 输出“最小可行的 patch”而非大段重写,减少无关文本。
- 对重复任务(格式化、模板生成)建立本地脚本或 Snippet,少用大模型。
缓存与复用
- 对稳定内容使用本地/服务端缓存,避免每次都走大模型。
- 让 AI 先生成“思路 + 伪代码”,确认后再要最终代码,减少无效 token。
监控与对比
请给出本次调用的 token 估算与成本(基于 gpt-4o 定价),并说明是否存在可压缩的上下文。
定期让 AI 评估提示是否冗长,或是否可以用较小模型完成。
练习
挑一个长对话,把关键信息总结成 10 行以内,再用摘要去生成代码,对比 token 消耗和响应时间的差异。