标签: 推理优化

2 个内容

笔记(2)

Prompt Caching：LLM成本暴降90%秘诀

**Prompt Caching** 是 LLM 优化技术，通过服务器端缓存重复输入前缀的 KV Cache，降低推理成本（高达90%）并加速 TTFT。 **关键问题**：传统调用中，微小变动导致全上下文重算。 **方案**：静态内容（如系统提示、代码库）置于 Prompt 前部，确保前缀完全匹配；动态内容置后。支持 Claude 等模型的长会话 Agent。

人工智能大模型上下文工程 KV Cache 推理优化成本优化 Agent开发

非凡少年·2026/03/18

159 浏览

Ollama vs vLLM：本地模型运行与高性能推理之选

Ollama是本地LLM运行和管理框架，侧重易用性，方便快速配置和使用LLM。vLLM是高性能推理引擎，专注高吞吐、低延迟，优化内存、批处理和缓存。Ollama适合本地试验，vLLM适合服务器端高效推理和服务。两者可结合使用。

技术大模型本地部署推理优化 Ollama vLLM 性能对比模型服务

非凡少年·2025/09/24

454 浏览