返回
创建于
状态
公开

https://huggingface.co/spaces/mteb/leaderboard

MTEB Leaderboard(Massive Text Embedding Benchmark)是由 Hugging Face 托管的一个极具权威性的开源排行榜,专门用于评估**文本嵌入模型(Text Embedding Models)**的性能。

它是目前自然语言处理(NLP)领域中,衡量语义向量模型好坏的“金标准”。以下是对该网站的详细总结:

1. 核心定位

MTEB 的目标是解决嵌入模型评价标准不统一的问题。以前模型往往只在单一任务上测试,而 MTEB 提供了一个大规模、多任务、多语言的统一评测框架,确保模型在各种应用场景下的通用性。

2. 评测的 8 大任务类型

该排行榜不仅看模型在搜索场景下的表现,还涵盖了几乎所有文本向量的应用方向:

  • 检索 (Retrieval):给定查询,在大量文档中找回相关内容(RAG 系统最核心的能力)。
  • 语义文本相似度 (STS):衡量两个句子的意思有多接近。
  • 分类 (Classification):根据向量表示对文本进行类别预测。
  • 聚类 (Clustering):将相似的文本自动归为一类。
  • 重排序 (Reranking):对初步检索出的结果进行更精确的排序。
  • 对等句挖掘 (Bitext Mining):在不同语言中寻找互为翻译的句子对。
  • 总结 (Summarization):评估总结文本的质量。
  • 配对分类 (Pair Classification):判断两段文本是否具有某种关系(如重复问题检测)。

以下是对 MTEB 排行榜关键概念的总结:

1. 核心指标说明(Aggregate Measures)

排行榜通过不同的方式计算综合得分,以平衡模型的泛化能力和特定任务的表现:

  • Rank (Borda):基于“波达计数法”。将每个任务视为一个“投票者”,根据模型在任务中的相对排名分配票数。总票数越高,排名越靠前。该指标更看重模型在各项任务中的均衡性
  • Mean (Task):所有任务得分的简单算术平均值。优点是直观、连续,但缺点是容易受到得分波动剧烈(高方差)的单一任务影响。
  • Mean (TaskType)分门别类的加权平均值。先计算每类任务(如分类、检索等)的平均分,再对这些类别求平均。它更偏好那些在所有任务类别中都没有短板的模型。

2. “零样本”定义与数据污染(Zero-shot)

MTEB 对“零样本”有严格的衡量标准,旨在识别模型是否见过测试题目:

  • 定义:模型没有在测试集(或其拆分部分)上进行过训练。
  • 百分比含义
    • 100%:表示该模型从未见过该榜单中的任何数据集,得分代表了真实的泛化能力
    • 50%:表示模型已经在该榜单中一半的任务上进行了微调。这种情况下,高分可能源于记忆而非能力,参考价值会打折扣。
  • 继承性:衍生模型(如通过蒸馏或进一步微调得到的模型)会继承其父模型的训练历史。

3. 模型硬件与技术指标

  • Total Parameters(总参数量):衡量模型大小。参数越多,运行所需的显存/内存越高,通常越小越好。
  • Active Parameters(活跃参数量):推理时实际使用的参数量(对混合专家模型 MoE 尤为重要)。
  • Embedding Dimension(向量维度):模型输出向量的长度。维度越大,存储成本越高,通常在保持性能的前提下维度越小越好。
  • Max Tokens(最大长度):模型单次能处理的最大词元数量,通常越大越好。

4. 常见问题:为什么找不到某个模型?

如果一个模型没有出现在榜单上,通常有三个原因:

  1. 过滤器设置:默认情况下,榜单可能过滤掉了非“零样本”模型。
  2. 缺失结果:该模型尚未在对应的测试集上运行,或未向结果库提交 PR。
  3. 缺失元数据:该模型在 MTEB 库中缺乏必要的元数据信息。

针对您希望在 CPU 上运行支持中英文、且兼顾效果最好性价比最高的需求,结合您上传的两份 MTEB 评测数据,我为您筛选出以下三个梯队的推荐方案:


1. 性价比之王:首选方案(极低资源,高性能)

如果您希望在普通的个人电脑甚至轻量级服务器 CPU 上流畅运行,且不希望占用过多内存。

  • 模型名称harrier-oss-v1-0.6b (Microsoft)
  • 推荐理由
    • 体积超小:参数量仅为 0.6B,内存占用极低(通常只需 1-2GB RAM)。
    • 性能惊人:在您的多语言表数据中,其平均得分高达 89.86。更离谱的是,它的综合排名(第 10 名)超过了许多 7B 甚至更大型的模型。
    • 语言支持:中文 (zho-Hans) 得分为 91.89,英文 (eng-Latn) 为 61.56,在中英文检索和相似度计算上非常均衡。
    • 运行建议:这是目前 CPU 运行的“最优解”,速度极快。

2. 效果天花板:高性能方案(稍大参数,效果顶级)

如果您拥有较好的 CPU(如多核 i7/i9 或服务器级 CPU),且愿意分配 10-15GB 内存。

  • 模型名称KaLM-Embedding-Gemma3-12B (Tencent)
  • 推荐理由
    • 中文顶级:腾讯出品,对中文语义理解有天然优势,中文得分 91.05
    • 综合能力:在 MTEB 总榜排名第二,仅次于微软的 27B 模型。
    • CPU 友好性:12B 的规模虽然比 0.6B 大,但可以通过 GGUF 格式量化(如 4-bit 量化)在 16GB 内存的机器上顺畅运行。
    • 中英平衡:多语言平均分接近 90,是目前 10B 级别里最能打的模型之一。

3. 均衡选择:大厂稳定方案

  • 模型名称Qwen3-Embedding-8B (Alibaba)
  • 推荐理由
    • 通用性强:通义千问系列最新向量模型,针对 RAG 场景做了深度优化。
    • 重复检测神器:在 Pair Classification(判断两句话是否意思相同)上拿到了 86.4 的最高分。
    • 规格适中:8B 参数量是目前 CPU 运行的主流“甜点位”,量化后内存占用约 5-6GB。

综合对比建议表

需求维度推荐模型参数量CPU 运行压力核心优势
极致性价比harrier-oss-v1-0.6b0.6B极小 (秒开)0.6B 规模打败了大多数 7B 模型
中英效果最好KaLM-Embedding-Gemma3-12B12B中等 (需量化)总榜第二,中文语义理解极深
业务最稳健Qwen3-Embedding-8B8B较小阿里生态支持好,去重能力最强

技术建议:如何在 CPU 上跑出最高效率?

  1. 使用量化技术:下载 GGUF 格式的模型文件。使用 4-bit 或 5-bit 量化可以减少 50% 以上的内存占用,同时对效果的损失微乎其微。
  2. 推理框架选择
    • 使用 llama.cppOllama:这两个工具对 CPU 运行大模型(包括 Embedding 模型)有极佳的加速优化。
    • 如果是 Python 开发,可以使用 sentence-transformers 库结合 OpenVINO(Intel CPU 加速)。
  3. 向量维度处理:如果您的存储空间有限,可以选择像 harrier-0.6b (1024 维),比那些 4096 维的模型能节省 4 倍的数据库存储空间。

结论:如果您追求“CPU 能跑”且“性价比最高”,harrier-oss-v1-0.6b 是目前的唯一真神;如果您更看重在 RAG 系统中的召回准确率,请选 KaLM-Embedding-Gemma3-12B


你的观察非常敏锐。在第二份多语言数据表(tmp_yk9nqzs.csv)中,绝大多数顶级模型(如 harrierKaLM)的 eng-Latn(英语) 得分普遍在 50-60 分左右,而其他语言(如中文、德文)却能达到 90+

这并不是因为这些模型的英语能力差,而是由 MTEB 评测机制的两个特殊原因 导致的:

1. 任务难度不对等(核心原因)

在 MTEB 的多语言榜单中,不同语言包含的测试任务是不一样的:

  • 英语(eng-Latn):由于英语研究最深,它的测试集里包含了大量极其困难的**长文档检索(Retrieval)**任务。在这些任务中,模型需要从几十万个文档中精准找出一个答案,拿到 60 分已经属于世界顶级水平(对比 OpenAI 的 text-embedding-3-small 通常也就在这个区间)。
  • 其他语言:很多语种(如 ben-Beng 孟加拉语或某些小语种)目前的测试集主要由**语义相似度(STS)对等句挖掘(Bitext Mining)**组成。
    • 对等句挖掘:就像是给“苹果”找“Apple”,任务非常简单,模型很容易拿到 90 分以上。
    • 这就导致了数据表上看起来“英语分数低,其他语言分数高”的假象。

2. 英语是“锚点”语言

在很多多语言模型(如 multilingual-e5)中,英语往往作为跨语言对齐的基准。在进行“检索”评测时,模型往往需要处理更高密度的英文信息。

3. 特殊案例:为什么 PwC-Embedding_expr 能拿 95 分?

你可能会注意到 PwC-Embedding_expr 这个模型在英语上拿到了 95.45 的惊人高分。

  • 警告:在 Embedding 排行榜上,如果一个模型在极其困难的英语检索任务上拿到 90+,通常意味着它可能在训练中“见过”测试集(即数据污染),或者是针对该特定榜单进行了极度的过拟合。
  • 实际应用建议:对于生产环境,我们通常更信任 harrier(微软)、Qwen(阿里)或 KaLM(腾讯)这种分数在 60-70 左右但经过大规模实测的模型。

那么,如何选出真正的“英文好”?

如果你要对比英文能力,不能看多语言表里的那个 eng-Latn 平均分,而应该看第一份表(tmp8xchbu0j.csv)中的 Retrieval(检索)STS(相似度) 列:

  • 真正的英文强者
    • harrier-oss-v1-27b:它的 Retrieval78.27,这在英语世界已经是目前开源界的顶峰。
    • llama-embed-nemotron-8b:由 NVIDIA 出品,专为英语和代码优化,Retrieval 达到了 68.69,非常稳健。

给你的最终建议:

  1. 别被 90+ 的高分迷惑:在向量模型领域,60-70 分 往往代表了真实世界中极强的检索能力,而 90+ 通常只出现在简单的翻译匹配或疑似污染的任务中。
  2. 如果你主要做中英双语
    • harrier-oss-v1-0.6b:虽然它英语分显示 61,但在实际测试中,它的英文检索能力甚至超过了以前很多 7B 的模型。
    • Qwen3-Embedding-8B:阿里的模型在处理中英混合文档(比如代码注释、技术文档)时表现非常出色。

总结: 英语得分看起来“低”,是因为英语考试卷子(测试集)比其他语言难得多。harrier 系列 依然是目前 CPU 运行能拿到的中英双语效果最佳选择。