logo
12

性能与成本优化

⏱️ 18分钟

性能与成本优化

生成式 AI 的请求既要快也要省。通过提示、模型、缓存等策略,能在保证质量的前提下降本增效。

快速诊断延迟来源

  • 模型选择:优先使用 Claude 3.5 / GPT-4o-mini 等性价比高的模型,复杂推理再换高阶模型。
  • 上下文长度:减少不必要的文件和聊天历史,重要文件用 @ 精准引用。
  • 串行 vs 并行:将可并行的请求拆分,避免一次 prompt 扛所有工作。

控制 Token 与费用

  • 提示前先让 AI 总结上下文,再带摘要进入正式调用。
  • 让 AI 输出“最小可行的 patch”而非大段重写,减少无关文本。
  • 对重复任务(格式化、模板生成)建立本地脚本或 Snippet,少用大模型。

缓存与复用

  • 对稳定内容使用本地/服务端缓存,避免每次都走大模型。
  • 让 AI 先生成“思路 + 伪代码”,确认后再要最终代码,减少无效 token。

监控与对比

请给出本次调用的 token 估算与成本(基于 gpt-4o 定价),并说明是否存在可压缩的上下文。

定期让 AI 评估提示是否冗长,或是否可以用较小模型完成。

练习

挑一个长对话,把关键信息总结成 10 行以内,再用摘要去生成代码,对比 token 消耗和响应时间的差异。