标签: 性能对比

1 个内容

笔记(1)

Ollama是本地LLM运行和管理框架，侧重易用性，方便快速配置和使用LLM。vLLM是高性能推理引擎，专注高吞吐、低延迟，优化内存、批处理和缓存。Ollama适合本地试验，vLLM适合服务器端高效推理和服务。两者可结合使用。

非凡少年·2025/09/24

455 浏览