Resource Hub

创建于2026年03月18日 11:04

状态

公开

Prompt Caching（提示词缓存） 是一项关键的 LLM 优化技术，旨在通过存储和复用重复的输入文本，显著降低大模型（如 Claude 3.5 Sonnet、GPT-4o）的推理成本并提升响应速度。

对于开发者（尤其是像你这样深入研究 Claude Code 和 AI 全栈的人）来说，理解其原理对构建高性能 Agent 至关重要。

1. 核心原理

在传统的 LLM 调用中，即使你发送的 100KB 代码库只有 1% 的变动，模型也需要重新计算全部 100KB 的 Token。 Prompt Caching 允许模型服务商（如 Anthropic 或 OpenAI）在服务器端缓存这 100KB 的预计算结果（KV Cache）。当下次请求的前缀匹配时，直接跳过计算，直接进入生成环节。

2. 为什么它对 Claude Code 和 Agent 至关重要？

在你提供的文章中，作者提到了“上下文工程”，Prompt Caching 在其中扮演了财务和性能的“守门员”：

成本削减（高达 90%）： 对于 Claude 来说，缓存写入（Write）比常规输入贵一点，但缓存命中（Hit/Read）的费用通常只有原价的 10%。在频繁对话的长会话中，这能省下大笔开销。
首字响应时间（TTFT）大幅缩短： 处理 200K Tokens 的上下文可能需要几秒钟的预热，但如果命中缓存，模型几乎可以“秒回”。
支撑复杂架构： 像 CLAUDE.md 这种“项目级持久契约”和常用的 Skills，如果被放置在 Prompt 的头部并触发缓存，那么每次对话都无需重新付费购买这些重复信息的“算力”。

3. 使用的技术门槛：前缀匹配（Prefix Matching）

这是开发者最容易踩坑的地方。缓存生效的前提是：输入的内容必须从开头起完全一致。

错误做法： 在 Prompt 开头放“当前时间”或“用户查询”，后面接 50KB 的代码文档。因为开头变了，后面的 50KB 缓存全部失效。
正确做法： 将静态、巨大的内容（如 CLAUDE.md、API 手册、库代码）放在 Prompt 的最前方，将动态变化的（当前指令、对话历史、时间）放在最后方。

4. 落地建议（简历/技术栈体现）

既然你正在将此内容写入简历，可以强调以下技术细节：

上下文分层设计： “利用 Prompt Caching 原理设计 Context 优先级，将高频静态契约（System Prompt/Rules）置于前缀，实现长会话下的低延迟响应。”
断点缓存策略： “针对复杂 RAG 应用，通过策略性插入缓存断点（Cache Breakpoints），优化海量知识库检索时的计算冗余。”

总结： Prompt Caching 让“长上下文”从一种奢侈品变成了可大规模工程化应用的工具。