首页
搜索...
⌘
K
切换主题
标签: GPU优化
1 个内容
返回标签列表
动态
(1)
E
Elliot Yang
2024-07-11 08:13
公开
Ollama 0.2已发布更新
并行请求,可同时请求多个服务,每个请求仅占用少量内存。可支持同时处理多个聊天会话、为团队托管代码完成LLMs、同时处理文档的不同部分和同时运行多个代理。
运行多个模型,并增强了RAG功能(嵌入模型和文本完成模型可以同时加载到内存中)。
根据请求和可用 GPU 内存量自动加载和停止运行模型。
Ollama
关注频道 @ZaiHuaPd 频道爆料 @ZaiHuabot
#技术
#人工智能
#Ollama
#大语言模型
#RAG
#模型部署
#GPU优化
#并行计算
浏览:
151
点赞:
0