2 个内容
Ollama是本地LLM运行和管理框架,侧重易用性,方便快速配置和使用LLM。vLLM是高性能推理引擎,专注高吞吐、低延迟,优化内存、批处理和缓存。Ollama适合本地试验,vLLM适合服务器端高效推理和服务。两者可结合使用。
Ollama 0.2已发布更新
Ollama
关注频道 @ZaiHuaPd 频道爆料 @ZaiHuabot