标签: 模型评测

3 个内容

笔记(1)

MTEB榜单：CPU嵌入模型Top3推荐

MTEB Leaderboard（Hugging Face）是文本嵌入模型的金标准，提供8大任务（检索、STS等）的多语言统一评测，解决评价不统一问题。核心指标：Rank (Borda)、Mean。针对CPU中英文需求，推荐harrier-0.6B（性价比王，89.86分）、KaLM-12B（总榜第二）、Qwen-8B（均衡）；用GGUF量化+llama.cpp优化。英语低分因任务难度高。

技术人工智能 MTEB 文本嵌入模型评测 CPU优化

非凡少年·2026/04/03

100 浏览

动态(2)

非

非凡少年

2025-11-02 13:14

公开

这周一直在实践 SpecKit （宪章 -> 需求澄清 -> 技术方案 -> 编码 -> 检查改进）规范 AI 编程，尝试不写代码来构建一个复杂一点的应用。

题目是：使用“mediabunny”构建一个音视频格式转换的网页应用，不使用服务端和 FFMPEG.wasm。

选用“mediabunny”的原因是：新出现的 npm 库大模型的知识库里边没具体知识，模型必须使用工具才能完成。

最终能交作业的模型是 Codex 和 Sonnet 4.5。Codex 的 UI 挺好的，Sonnet 4.5 做出来了，但是 UI 太 AI 了。

Codex 做出来的效果：https://format-studio.run-on.workers.dev/

其他模型 GLM 4.6 、M2、KAT-Coder 都未完成作业。能进入编码阶段的是 GLM 4.6，但是代码里边一堆 document 导致 Next.js 报错太多就没往下走了。M2、KAT-Coder 在技术方案阶段没满意的产出，有的是工具不调用、有的是不听话。

K2、Qwen、DeepSeek 没测试，提示词和方法放下面👇了，你们有兴趣可以自己测试，或者复现 Codex 的作业。

测试工具：

SpecKit + Claude Code / Codex

配置 MCP:

deepwiki 和 context7

预置条件：

初始化 Next.js 16 和 shadcn-ui 。

初始化 SpecKit 配置。

原始提示词：


请使用开源库 mediabunny 实现一个名叫 "Format Studio" 的网页应用, 类似很多年前 Windows 中的"格式工厂"这款软件, 可以转换视频文件和音频文件格式。

纯前端应用，无任何服务端依赖。

必须使用 mediabunny 的功能, 不要使用 FFMpeg.wasm 做降级。

如果你不熟悉 mediabunny， 可以使用 deepwiki 和 context7 调研 mediabunny 后，完成后续任务。

参考资料：

<a href="https://github.com/Vanilagy/mediabunny">https://github.com/Vanilagy/mediabunny</a> 

<a href="https://mediabunny.dev/guide/converting-media-files">https://mediabunny.dev/guide/converting-media-files</a>

Format Studio 使用 Mediabunny 在浏览器内转换音视频文件，当前预设:高效视频 WebM, ⑦ 能力已就绪，但部分预设不可用。 ⓘ 详情输出预设选择目标格式，可通过高级设置进一步调整分辨率、比特率与音频参数。高效视频 WebM v(高级设置 (内置预设采用 AV1+Opus，文件更小，适合现代浏览器在线播放。拖放视频或音频文件到此处支持 MP4、WebM、MP3、WAV 等常见格式，单文件大小不超过4GB 或点击选择文件拖入多个文件或点击选择，将使用「高效视频 WebM」排队转换转换队列队列概览(共1个任务已完成1 全部开始取消全部重试失败清除已完成已完成1 demo-screen.mp4 已完成高效视频 WebM·3.1 MB.10秒进度:100% 入队时间:12:51:41开始时间:12:51:41完成时间:12:51:42 佥清除

#AI编程 #前端开发 #Mediabunny #音视频处理 #Next.js #模型评测 #纯前端应用 #工具调用

浏览:112点赞:0

非

非凡少年

2024-04-19 08:17

公开

Meta 发布 Llama 3 —— 迄今最强大的公开语言模型

Llama 3 的 8B 和 70B 型号拥有 8K 上下文窗口，经过 15T tokens 预训练，训练数据比 Llama 2 大了七倍，并且包含四倍多的代码。

其中 Llama 3-8B 的性能就已优于 Llama 2-70B。人类择优测试中 Llama 3-70B 远胜于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5。

Llama 3 的多模态和更大的版本将在数月内推出，其中最为强大的 Llama 3-400B+ 仍在训练中，三天前的基准测试结果已经持平 Claude 3 Opus 超过 Gemini Pro 1.5，仅数学落后最先进的 GPT-4-2024-04-09。