标签: 性能对比

1 个内容

笔记(1)

Ollama是本地LLM运行和管理框架,侧重易用性,方便快速配置和使用LLM。vLLM是高性能推理引擎,专注高吞吐、低延迟,优化内存、批处理和缓存。Ollama适合本地试验,vLLM适合服务器端高效推理和服务。两者可结合使用。

Elliot Yang·
376 浏览