标签: 推理优化

2 个内容

笔记(2)

**Prompt Caching** 是 LLM 优化技术,通过服务器端缓存重复输入前缀的 KV Cache,降低推理成本(高达90%)并加速 TTFT。 **关键问题**:传统调用中,微小变动导致全上下文重算。 **方案**:静态内容(如系统提示、代码库)置于 Prompt 前部,确保前缀完全匹配;动态内容置后。支持 Claude 等模型的长会话 Agent。

Elliot Yang·
61 浏览

Ollama是本地LLM运行和管理框架,侧重易用性,方便快速配置和使用LLM。vLLM是高性能推理引擎,专注高吞吐、低延迟,优化内存、批处理和缓存。Ollama适合本地试验,vLLM适合服务器端高效推理和服务。两者可结合使用。

Elliot Yang·
376 浏览