标签: KV Cache

1 个内容

笔记(1)

**Prompt Caching** 是 LLM 优化技术,通过服务器端缓存重复输入前缀的 KV Cache,降低推理成本(高达90%)并加速 TTFT。 **关键问题**:传统调用中,微小变动导致全上下文重算。 **方案**:静态内容(如系统提示、代码库)置于 Prompt 前部,确保前缀完全匹配;动态内容置后。支持 Claude 等模型的长会话 Agent。

Elliot Yang·
60 浏览