标签: KV Cache

1 个内容

笔记(1)

Prompt Caching：LLM成本暴降90%秘诀

**Prompt Caching** 是 LLM 优化技术，通过服务器端缓存重复输入前缀的 KV Cache，降低推理成本（高达90%）并加速 TTFT。 **关键问题**：传统调用中，微小变动导致全上下文重算。 **方案**：静态内容（如系统提示、代码库）置于 Prompt 前部，确保前缀完全匹配；动态内容置后。支持 Claude 等模型的长会话 Agent。

人工智能大模型上下文工程 KV Cache 推理优化成本优化 Agent开发

非凡少年·2026/03/18

159 浏览