Resource Hub

创建于2026年02月27日 14:12

状态

公开

倒数排名融合（Reciprocal Rank Fusion, 简称 RRF） 是混合检索（Hybrid Search）中的“黄金准则”。它的核心魅力在于：不需要复杂的权重调优，就能把完全不同维度的评分（比如全文检索的 BM25 分数和向量检索的余弦相似度）公正地合并在一起。

RRF 的计算逻辑非常简单直观：

$Score(d \in D) = \sum_{r \in R} \frac{1}{k + r(d)}$

为什么要加 $k$ ？ 为了防止排名第一的文档（ $1/1$ ）对结果产生压倒性的影响，平滑掉排名靠前的权重波动。

假设你用“几个字”去搜：

RRF 计算（假设 $k=60$ ）：

最后，文档 A 和 C 因为在两套系统中表现都稳健，会排在最前面。即使单项冠军（比如向量检索里的文档 D）在另一项中表现很差，也会被过滤掉。

抹平分值差异：全文检索的分数可能是 $15.2$ （无上限），向量检索的分数是 $0.85$ （ $0 \sim 1$ 之间）。RRF 只看名次，不看分数值，强制把它们拉到同一个起跑线上。
无需专家经验：传统的权重加权需要你手动设置 $0.7 \times \text{Vector} + 0.3 \times \text{BM25}$ 。这个权重很难调，而 RRF 默认 $k=60$ 在大多数场景下都是最优解。
奖励“双优生”：如果一个文档在两个列表里都在前 100 名，它的总分会远高于只在某一个列表中排第一、而在另一个列表里查无此人的文档。

如果你正准备实现它，请注意以下几点：

BGE-M3 的特殊性：既然你在用 BGE-M3，它产生的 lexical_weights（Sparse Vector）其实已经自带了类似 BM25 的属性。如果你使用的是 Milvus 或 Qdrant 这类数据库，它们原生支持 RRF 算法，你只需要通过一个简单的配置开关就能启用。