标签: 模型评测

3 个内容

笔记(1)

MTEB Leaderboard(Hugging Face)是文本嵌入模型的金标准,提供8大任务(检索、STS等)的多语言统一评测,解决评价不统一问题。核心指标:Rank (Borda)、Mean。针对CPU中英文需求,推荐harrier-0.6B(性价比王,89.86分)、KaLM-12B(总榜第二)、Qwen-8B(均衡);用GGUF量化+llama.cpp优化。英语低分因任务难度高。

Elliot Yang·
23 浏览

动态(2)

E
Elliot Yang
公开

这周一直在实践 SpecKit (宪章 -> 需求澄清 -> 技术方案 -> 编码 -> 检查改进) 规范 AI 编程,尝试不写代码来构建一个复杂一点的应用。

题目是:使用“mediabunny”构建一个音视频格式转换的网页应用,不使用服务端和 FFMPEG.wasm。

选用“mediabunny”的原因是:新出现的 npm 库大模型的知识库里边没具体知识,模型必须使用工具才能完成。

最终能交作业的模型是 Codex 和 Sonnet 4.5。Codex 的 UI 挺好的,Sonnet 4.5 做出来了,但是 UI 太 AI 了。

Codex 做出来的效果:https://format-studio.run-on.workers.dev/

其他模型 GLM 4.6 、M2、KAT-Coder 都未完成作业。能进入编码阶段的是 GLM 4.6,但是代码里边一堆 document 导致 Next.js 报错太多就没往下走了。M2、KAT-Coder 在技术方案阶段没满意的产出,有的是工具不调用、有的是不听话。

K2、Qwen、DeepSeek 没测试,提示词和方法放下面👇了,你们有兴趣可以自己测试,或者复现 Codex 的作业。


测试工具:

SpecKit + Claude Code / Codex

配置 MCP:

deepwiki 和 context7

预置条件:

初始化 Next.js 16 和 shadcn-ui 。

初始化 SpecKit 配置。

原始提示词:

请使用开源库 mediabunny 实现一个名叫 "Format Studio" 的网页应用, 类似很多年前 Windows 中的"格式工厂"这款软件, 可以转换视频文件和音频文件格式。 纯前端应用,无任何服务端依赖。 必须使用 mediabunny 的功能, 不要使用 FFMpeg.wasm 做降级。 如果你不熟悉 mediabunny, 可以使用 deepwiki 和 context7 调研 mediabunny 后,完成后续任务。 参考资料: <a href="https://github.com/Vanilagy/mediabunny">https://github.com/Vanilagy/mediabunny</a> <a href="https://mediabunny.dev/guide/converting-media-files">https://mediabunny.dev/guide/converting-media-files</a>
Format Studio 使用 Mediabunny 在浏览器内转换音视频文件,当前预设:高效视频 WebM, ⑦ 能力已就绪,但部分预设不可用。 ⓘ 详情 输出预设 选择目标格式,可通过高级设置进一步调整分辨率、比特率与音频参数。 高效视频 WebM v(高级设置 (内置预设 采用 AV1+Opus,文件更小,适合现代浏览器在线播放。 拖放视频或音频文件到此处 支持 MP4、WebM、MP3、WAV 等常见格式,单文件大小不超过4GB 或点击选择文件 拖入多个文件或点击选择,将使用「高效视频 WebM」排队转换 转换队列 队列概览(共1个任务已完成1 全部开始 取消全部 重试失败 清除已完成 已完成1 demo-screen.mp4 已完成 高效视频 WebM·3.1 MB.10秒 进度:100% 入队时间:12:51:41开始时间:12:51:41完成时间:12:51:42 佥 清除
浏览:90点赞:0
E
Elliot Yang
公开

Meta 发布 Llama 3 —— 迄今最强大的公开语言模型

Llama 3 的 8B 和 70B 型号拥有 8K 上下文窗口,经过 15T tokens 预训练,训练数据比 Llama 2 大了七倍,并且包含四倍多的代码。

其中 Llama 3-8B 的性能就已优于 Llama 2-70B。人类择优测试中 Llama 3-70B 远胜于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5。

Llama 3 的多模态和更大的版本将在数月内推出,其中最为强大的 Llama 3-400B+ 仍在训练中,三天前的基准测试结果已经持平 Claude 3 Opus 超过 Gemini Pro 1.5,仅数学落后最先进的 GPT-4-2024-04-09

Meta

线索:@ZaiHuabot 投稿:@TNSubmbot 频道:@TestFlightCN

浏览:164点赞:0