标签: Ollama

2 个内容

返回标签列表

笔记(1)

Ollama vs vLLM：本地模型运行与高性能推理之选

Ollama是本地LLM运行和管理框架，侧重易用性，方便快速配置和使用LLM。vLLM是高性能推理引擎，专注高吞吐、低延迟，优化内存、批处理和缓存。Ollama适合本地试验，vLLM适合服务器端高效推理和服务。两者可结合使用。

技术大模型本地部署推理优化 Ollama vLLM 性能对比模型服务

非凡少年·2025/09/24

454 浏览

动态(1)

非

非凡少年

2024-07-11 08:13

公开

Ollama 0.2已发布更新

并行请求，可同时请求多个服务，每个请求仅占用少量内存。可支持同时处理多个聊天会话、为团队托管代码完成LLMs、同时处理文档的不同部分和同时运行多个代理。
运行多个模型，并增强了RAG功能（嵌入模型和文本完成模型可以同时加载到内存中）。
根据请求和可用 GPU 内存量自动加载和停止运行模型。

关注频道 @ZaiHuaPd 频道爆料 @ZaiHuabot

#技术 #人工智能 #Ollama #大语言模型 #RAG #模型部署 #GPU优化 #并行计算

浏览:171点赞:0