Resource Hub

创建于2026年04月03日 14:04

状态

公开

https://huggingface.co/spaces/mteb/leaderboard

MTEB Leaderboard（Massive Text Embedding Benchmark）是由 Hugging Face 托管的一个极具权威性的开源排行榜，专门用于评估**文本嵌入模型（Text Embedding Models）**的性能。

它是目前自然语言处理（NLP）领域中，衡量语义向量模型好坏的“金标准”。以下是对该网站的详细总结：

1. 核心定位

MTEB 的目标是解决嵌入模型评价标准不统一的问题。以前模型往往只在单一任务上测试，而 MTEB 提供了一个大规模、多任务、多语言的统一评测框架，确保模型在各种应用场景下的通用性。

2. 评测的 8 大任务类型

该排行榜不仅看模型在搜索场景下的表现，还涵盖了几乎所有文本向量的应用方向：

检索 (Retrieval)：给定查询，在大量文档中找回相关内容（RAG 系统最核心的能力）。
语义文本相似度 (STS)：衡量两个句子的意思有多接近。
分类 (Classification)：根据向量表示对文本进行类别预测。
聚类 (Clustering)：将相似的文本自动归为一类。
重排序 (Reranking)：对初步检索出的结果进行更精确的排序。
对等句挖掘 (Bitext Mining)：在不同语言中寻找互为翻译的句子对。
总结 (Summarization)：评估总结文本的质量。
配对分类 (Pair Classification)：判断两段文本是否具有某种关系（如重复问题检测）。

以下是对 MTEB 排行榜关键概念的总结：

1. 核心指标说明（Aggregate Measures）

排行榜通过不同的方式计算综合得分，以平衡模型的泛化能力和特定任务的表现：

Rank (Borda)：基于“波达计数法”。将每个任务视为一个“投票者”，根据模型在任务中的相对排名分配票数。总票数越高，排名越靠前。该指标更看重模型在各项任务中的均衡性。
Mean (Task)：所有任务得分的简单算术平均值。优点是直观、连续，但缺点是容易受到得分波动剧烈（高方差）的单一任务影响。
Mean (TaskType)：分门别类的加权平均值。先计算每类任务（如分类、检索等）的平均分，再对这些类别求平均。它更偏好那些在所有任务类别中都没有短板的模型。

2. “零样本”定义与数据污染（Zero-shot）

MTEB 对“零样本”有严格的衡量标准，旨在识别模型是否见过测试题目：

定义：模型没有在测试集（或其拆分部分）上进行过训练。
百分比含义：
- 100%：表示该模型从未见过该榜单中的任何数据集，得分代表了真实的泛化能力。
- 50%：表示模型已经在该榜单中一半的任务上进行了微调。这种情况下，高分可能源于记忆而非能力，参考价值会打折扣。
继承性：衍生模型（如通过蒸馏或进一步微调得到的模型）会继承其父模型的训练历史。

3. 模型硬件与技术指标

Total Parameters（总参数量）：衡量模型大小。参数越多，运行所需的显存/内存越高，通常越小越好。
Active Parameters（活跃参数量）：推理时实际使用的参数量（对混合专家模型 MoE 尤为重要）。
Embedding Dimension（向量维度）：模型输出向量的长度。维度越大，存储成本越高，通常在保持性能的前提下维度越小越好。
Max Tokens（最大长度）：模型单次能处理的最大词元数量，通常越大越好。

4. 常见问题：为什么找不到某个模型？

如果一个模型没有出现在榜单上，通常有三个原因：

过滤器设置：默认情况下，榜单可能过滤掉了非“零样本”模型。
缺失结果：该模型尚未在对应的测试集上运行，或未向结果库提交 PR。
缺失元数据：该模型在 MTEB 库中缺乏必要的元数据信息。

针对您希望在 CPU 上运行、支持中英文、且兼顾效果最好与性价比最高的需求，结合您上传的两份 MTEB 评测数据，我为您筛选出以下三个梯队的推荐方案：

1. 性价比之王：首选方案（极低资源，高性能）

如果您希望在普通的个人电脑甚至轻量级服务器 CPU 上流畅运行，且不希望占用过多内存。

模型名称：harrier-oss-v1-0.6b (Microsoft)
推荐理由：
- 体积超小：参数量仅为 0.6B，内存占用极低（通常只需 1-2GB RAM）。
- 性能惊人：在您的多语言表数据中，其平均得分高达 89.86。更离谱的是，它的综合排名（第 10 名）超过了许多 7B 甚至更大型的模型。
- 语言支持：中文 (zho-Hans) 得分为 91.89，英文 (eng-Latn) 为 61.56，在中英文检索和相似度计算上非常均衡。
- 运行建议：这是目前 CPU 运行的“最优解”，速度极快。

2. 效果天花板：高性能方案（稍大参数，效果顶级）

如果您拥有较好的 CPU（如多核 i7/i9 或服务器级 CPU），且愿意分配 10-15GB 内存。

模型名称：KaLM-Embedding-Gemma3-12B (Tencent)
推荐理由：
- 中文顶级：腾讯出品，对中文语义理解有天然优势，中文得分 91.05。
- 综合能力：在 MTEB 总榜排名第二，仅次于微软的 27B 模型。
- CPU 友好性：12B 的规模虽然比 0.6B 大，但可以通过 GGUF 格式量化（如 4-bit 量化）在 16GB 内存的机器上顺畅运行。
- 中英平衡：多语言平均分接近 90，是目前 10B 级别里最能打的模型之一。

3. 均衡选择：大厂稳定方案

模型名称：Qwen3-Embedding-8B (Alibaba)
推荐理由：
- 通用性强：通义千问系列最新向量模型，针对 RAG 场景做了深度优化。
- 重复检测神器：在 Pair Classification（判断两句话是否意思相同）上拿到了 86.4 的最高分。
- 规格适中：8B 参数量是目前 CPU 运行的主流“甜点位”，量化后内存占用约 5-6GB。

综合对比建议表

需求维度	推荐模型	参数量	CPU 运行压力	核心优势
极致性价比	`harrier-oss-v1-0.6b`	0.6B	极小 (秒开)	0.6B 规模打败了大多数 7B 模型
中英效果最好	`KaLM-Embedding-Gemma3-12B`	12B	中等 (需量化)	总榜第二，中文语义理解极深
业务最稳健	`Qwen3-Embedding-8B`	8B	较小	阿里生态支持好，去重能力最强

技术建议：如何在 CPU 上跑出最高效率？

使用量化技术：下载 GGUF 格式的模型文件。使用 4-bit 或 5-bit 量化可以减少 50% 以上的内存占用，同时对效果的损失微乎其微。
推理框架选择：
- 使用 llama.cpp 或 Ollama：这两个工具对 CPU 运行大模型（包括 Embedding 模型）有极佳的加速优化。
- 如果是 Python 开发，可以使用 sentence-transformers 库结合 OpenVINO（Intel CPU 加速）。
向量维度处理：如果您的存储空间有限，可以选择像 harrier-0.6b (1024 维)，比那些 4096 维的模型能节省 4 倍的数据库存储空间。

结论：如果您追求“CPU 能跑”且“性价比最高”，harrier-oss-v1-0.6b 是目前的唯一真神；如果您更看重在 RAG 系统中的召回准确率，请选 KaLM-Embedding-Gemma3-12B。

你的观察非常敏锐。在第二份多语言数据表（tmp_yk9nqzs.csv）中，绝大多数顶级模型（如 harrier、KaLM）的 eng-Latn（英语） 得分普遍在 50-60 分左右，而其他语言（如中文、德文）却能达到 90+。

这并不是因为这些模型的英语能力差，而是由 MTEB 评测机制的两个特殊原因 导致的：

1. 任务难度不对等（核心原因）

在 MTEB 的多语言榜单中，不同语言包含的测试任务是不一样的：

英语（eng-Latn）：由于英语研究最深，它的测试集里包含了大量极其困难的**长文档检索（Retrieval）**任务。在这些任务中，模型需要从几十万个文档中精准找出一个答案，拿到 60 分已经属于世界顶级水平（对比 OpenAI 的 text-embedding-3-small 通常也就在这个区间）。
其他语言：很多语种（如 ben-Beng 孟加拉语或某些小语种）目前的测试集主要由**语义相似度（STS）或对等句挖掘（Bitext Mining）**组成。
- 对等句挖掘：就像是给“苹果”找“Apple”，任务非常简单，模型很容易拿到 90 分以上。
- 这就导致了数据表上看起来“英语分数低，其他语言分数高”的假象。

2. 英语是“锚点”语言

在很多多语言模型（如 multilingual-e5）中，英语往往作为跨语言对齐的基准。在进行“检索”评测时，模型往往需要处理更高密度的英文信息。

3. 特殊案例：为什么 `PwC-Embedding_expr` 能拿 95 分？

你可能会注意到 PwC-Embedding_expr 这个模型在英语上拿到了 95.45 的惊人高分。

警告：在 Embedding 排行榜上，如果一个模型在极其困难的英语检索任务上拿到 90+，通常意味着它可能在训练中“见过”测试集（即数据污染），或者是针对该特定榜单进行了极度的过拟合。
实际应用建议：对于生产环境，我们通常更信任 harrier（微软）、Qwen（阿里）或 KaLM（腾讯）这种分数在 60-70 左右但经过大规模实测的模型。

那么，如何选出真正的“英文好”？

如果你要对比英文能力，不能看多语言表里的那个 eng-Latn 平均分，而应该看第一份表（tmp8xchbu0j.csv）中的 Retrieval（检索） 和 STS（相似度） 列：

真正的英文强者：
- harrier-oss-v1-27b：它的 Retrieval 是 78.27，这在英语世界已经是目前开源界的顶峰。
- llama-embed-nemotron-8b：由 NVIDIA 出品，专为英语和代码优化，Retrieval 达到了 68.69，非常稳健。

给你的最终建议：

别被 90+ 的高分迷惑：在向量模型领域，60-70 分 往往代表了真实世界中极强的检索能力，而 90+ 通常只出现在简单的翻译匹配或疑似污染的任务中。
如果你主要做中英双语：
- 选 harrier-oss-v1-0.6b：虽然它英语分显示 61，但在实际测试中，它的英文检索能力甚至超过了以前很多 7B 的模型。
- 选 Qwen3-Embedding-8B：阿里的模型在处理中英混合文档（比如代码注释、技术文档）时表现非常出色。

总结： 英语得分看起来“低”，是因为英语考试卷子（测试集）比其他语言难得多。harrier 系列 依然是目前 CPU 运行能拿到的中英双语效果最佳选择。