标签: 大模型

5 个内容

笔记(3)

**Prompt Caching** 是 LLM 优化技术,通过服务器端缓存重复输入前缀的 KV Cache,降低推理成本(高达90%)并加速 TTFT。 **关键问题**:传统调用中,微小变动导致全上下文重算。 **方案**:静态内容(如系统提示、代码库)置于 Prompt 前部,确保前缀完全匹配;动态内容置后。支持 Claude 等模型的长会话 Agent。

Elliot Yang·
60 浏览

Ollama是本地LLM运行和管理框架,侧重易用性,方便快速配置和使用LLM。vLLM是高性能推理引擎,专注高吞吐、低延迟,优化内存、批处理和缓存。Ollama适合本地试验,vLLM适合服务器端高效推理和服务。两者可结合使用。

Elliot Yang·
376 浏览

大模型Token计算受分词策略影响,数学公式结构导致Token爆炸,优化方案需权衡通用性。多模态学习经历三代演进,核心挑战在于模态对齐等。未来Token计算将向动态分词发展,多模态技术在自动驾驶等领域落地,但需关注准确率和资源消耗。

Elliot Yang·
170 浏览

动态(2)