标签: RAG

6 个内容

笔记(4)

RRF(倒数排名融合)是混合检索黄金准则,无需权重调优合并BM25与向量余弦分值。核心公式:Score(d)=∑1/(k+r(d)),k=60平滑排名。优势:抹平分值差异、奖励双优文档。落地:每源取前50-100结果融合,后接Re-ranker。

Elliot Yang·
35 浏览

文章介绍工业级RAG/搜索系统优化方案:**背景**为向量化Token限制与检索准确性问题。**关键技术**包括切片(基础,必备)、混合检索(Dense+Sparse+RRF,提升准确率)、多向量/ColBERT(精排,占资源)、摘要向量化(辅助)。**推荐路径**:切片→混合检索→重排序,实现粗排+精排全流程。(148字符)

Elliot Yang·
65 浏览

Dify的RAG优化面临检索质量和生成结果相关性挑战。优化需关注:embedding模型和向量数据库选型、混合检索和重排序、知识库预处理(chunking、元数据增强)、query扩展、prompt工程、上下文压缩等。新兴技术如ColBERT和FLARE,以及幻觉和数据泄露风险需关注。监控和AB测试至关重要。

Elliot Yang·
352 浏览

Agent和Workflow是LLM驱动系统的核心架构。Agent自主决策,遵循感知-规划-行动循环,挑战在于幻觉控制和长程规划。Workflow是预定义任务编排,强调确定性和可重复性,可通过动态编排和性能优化。混合架构是趋势,需根据场景选择Agent或Workflow。

Elliot Yang·
153 浏览

动态(2)

E
Elliot Yang
公开

Ollama 0.2已发布更新

  1. 并行请求,可同时请求多个服务,每个请求仅占用少量内存。可支持同时处理多个聊天会话、为团队托管代码完成LLMs、同时处理文档的不同部分和同时运行多个代理。
  2. 运行多个模型,并增强了RAG功能(嵌入模型和文本完成模型可以同时加载到内存中)。
  3. 根据请求和可用 GPU 内存量自动加载和停止运行模型。

Ollama

关注频道 @ZaiHuaPd 频道爆料 @ZaiHuabot

浏览:151点赞:0