标签: 大模型

5 个内容

返回标签列表

笔记(3)

Prompt Caching：LLM成本暴降90%秘诀

**Prompt Caching** 是 LLM 优化技术，通过服务器端缓存重复输入前缀的 KV Cache，降低推理成本（高达90%）并加速 TTFT。 **关键问题**：传统调用中，微小变动导致全上下文重算。 **方案**：静态内容（如系统提示、代码库）置于 Prompt 前部，确保前缀完全匹配；动态内容置后。支持 Claude 等模型的长会话 Agent。

人工智能大模型上下文工程 KV Cache 推理优化成本优化 Agent开发

非凡少年·2026/03/18

160 浏览

Ollama vs vLLM：本地模型运行与高性能推理之选

Ollama是本地LLM运行和管理框架，侧重易用性，方便快速配置和使用LLM。vLLM是高性能推理引擎，专注高吞吐、低延迟，优化内存、批处理和缓存。Ollama适合本地试验，vLLM适合服务器端高效推理和服务。两者可结合使用。

技术大模型本地部署推理优化 Ollama vLLM 性能对比模型服务

非凡少年·2025/09/24

455 浏览

Token与多模态解析

大模型Token计算受分词策略影响，数学公式结构导致Token爆炸，优化方案需权衡通用性。多模态学习经历三代演进，核心挑战在于模态对齐等。未来Token计算将向动态分词发展，多模态技术在自动驾驶等领域落地，但需关注准确率和资源消耗。

人工智能大模型 Token分词多模态学习自动驾驶 BPE算法模态对齐

非凡少年·2025/02/16

293 浏览

动态(2)

非

非凡少年

2026-03-06 12:45

公开

from rvalue的生草日常

窝囊博士互助小组订阅一个研究生比 open clow便宜一个月 400 天限token 微信直接发布命令研究生才是顶配openclaw 共 355 条评论燜鰾普喜耕欢就给个评论支持一下订阅研究生研究生会自费买token 寵啥縦范懿皖譞 ④ 区 1568 4小时前北京回复置顶评论窝囊博士互助小组作者卧槽勰正在纠结买哪个的我破防了 4小时前中国香港回复展开 98 条回复能工智人 3小时前江苏回复 phenom 哈哈哈哈哈笑死了 2小时前广东回复展开 48 条回复

#科技 #学术 #人工智能 #研究生 #OpenAI #大模型 #科研日常 #学术梗

浏览:118点赞:0

非

非凡少年

2023-12-01 22:00

公开

from 咕咕咕提前给大家拜个早年

停停停，再进化要上班了

#生活 #职场 #人工智能 #大模型 #AI进化 #工作焦虑 #技术调侃 #新年祝福

浏览:173点赞:0