标签: 模型评测
3 个内容
笔记(1)
动态(2)
这周一直在实践 SpecKit (宪章 -> 需求澄清 -> 技术方案 -> 编码 -> 检查改进) 规范 AI 编程,尝试不写代码来构建一个复杂一点的应用。
题目是:使用“mediabunny”构建一个音视频格式转换的网页应用,不使用服务端和 FFMPEG.wasm。
选用“mediabunny”的原因是:新出现的 npm 库大模型的知识库里边没具体知识,模型必须使用工具才能完成。
最终能交作业的模型是 Codex 和 Sonnet 4.5。Codex 的 UI 挺好的,Sonnet 4.5 做出来了,但是 UI 太 AI 了。
Codex 做出来的效果:https://format-studio.run-on.workers.dev/
其他模型 GLM 4.6 、M2、KAT-Coder 都未完成作业。能进入编码阶段的是 GLM 4.6,但是代码里边一堆 document 导致 Next.js 报错太多就没往下走了。M2、KAT-Coder 在技术方案阶段没满意的产出,有的是工具不调用、有的是不听话。
K2、Qwen、DeepSeek 没测试,提示词和方法放下面👇了,你们有兴趣可以自己测试,或者复现 Codex 的作业。
测试工具:
SpecKit + Claude Code / Codex
配置 MCP:
deepwiki 和 context7
预置条件:
初始化 Next.js 16 和 shadcn-ui 。
初始化 SpecKit 配置。
原始提示词:
请使用开源库 mediabunny 实现一个名叫 "Format Studio" 的网页应用, 类似很多年前 Windows 中的"格式工厂"这款软件, 可以转换视频文件和音频文件格式。
纯前端应用,无任何服务端依赖。
必须使用 mediabunny 的功能, 不要使用 FFMpeg.wasm 做降级。
如果你不熟悉 mediabunny, 可以使用 deepwiki 和 context7 调研 mediabunny 后,完成后续任务。
参考资料:
<a href="https://github.com/Vanilagy/mediabunny">https://github.com/Vanilagy/mediabunny</a>
<a href="https://mediabunny.dev/guide/converting-media-files">https://mediabunny.dev/guide/converting-media-files</a>
Meta 发布 Llama 3 —— 迄今最强大的公开语言模型
Llama 3 的 8B 和 70B 型号拥有 8K 上下文窗口,经过 15T tokens 预训练,训练数据比 Llama 2 大了七倍,并且包含四倍多的代码。
其中 Llama 3-8B 的性能就已优于 Llama 2-70B。人类择优测试中 Llama 3-70B 远胜于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5。
Llama 3 的多模态和更大的版本将在数月内推出,其中最为强大的 Llama 3-400B+ 仍在训练中,三天前的基准测试结果已经持平 Claude 3 Opus 超过 Gemini Pro 1.5,仅数学落后最先进的 GPT-4-2024-04-09。
线索:@ZaiHuabot 投稿:@TNSubmbot 频道:@TestFlightCN