TOTAL MODEL AUDIT · 26 MODELS · 7 DIMENSIONS

AI 模型全维度客观评测报告

基于 本地 Flappy Bird 实现代码(行数、特性、架构)+ 互联网公开基准(SWE-Bench / LMArena / GPQA / HumanEval / MMLU)的双轨评估, 对 26 个模型从 7 个产出维度5 个行业指标 全面打分。

宏观指标概览
参评模型
26
跨 10 个家族
综合冠军
平均总分
满分 10
平均代码行
单文件 HTML
含音频引擎
WebAudio/Audio()
含粒子系统
Particle Effects
综合总分排行
加权方案:代码质量 20% · 视觉美术 15% · 完整度 15% · 物理手感 15% · 音效 10% · 性能 10% · 创新 15%(满分 10)。
引入"实测乘数 (Runtime Factor)"——在静态加权分之上,乘以 0.70/0.78/0.85/0.93/1.00 的系数(对应实测 0/1/2/3/4 项通过)。

全量模型总分(降序)

家族平均总分

七维能力雷达与复杂度-分数关系

雷达图:7 大产出维度对比(可切换模型)

点击上方芯片可切换对比对象,最多 6 个。默认展示各家族旗舰。

代码行数 vs 综合总分

甜蜜区约在 800–1200 行;过短往往完整度不足,过长(如 1447 行)会带来性能与维护开销。
行业基准:家族外部能力对比
数据来源:公开发布的评测榜单(SWE-Bench Verified、LMArena、GPQA Diamond、HumanEval+、MMLU-Pro)。 由于各家族发版节奏不同,下表取 2025Q4–2026Q1 主力版本的公开得分做归一化处理(0–10),用于与本地产出交叉验证。

家族 · 5 项行业基准(归一化)

全模型 × 全维度热力表
颜色越亮代表该维度得分越高;右侧 Total 为综合总分(0–10)。
全模型详细数据总表
显示全部 26 个模型
模型名 ↕ 家族 代码行数 大小 实测 总分 代码 视觉 完整 物理 音效 性能 创新 评级
逐模型详评
每张卡片包含:7 维小分、综合评级、对应家族定位、以及结合代码产出 + 行业基准的一句话点评。
使用场景推荐矩阵

生产级原型

Claude Opus 4.6 / GPT-5.4
美术、物理、音频、代码质量均位列 Top 3,一把生成接近可交付状态。

工程代码质量

GPT-5.3-Codex / Composer 2
结构严谨、函数边界清晰;SWE-Bench Verified 基准表现最稳。

性价比 / 快速迭代

Gemini 3 Flash / GPT-5-nano
生成速度快、token 成本低,仍保有完整游戏循环与音效。

中文圈自研首选

GLM-5.1 / Qwen3.5-Plus
国产模型中能在同等代码量下做到粒子系统 + 渐变美术的仅此几家。

长上下文 / 复杂系统

Kimi K2.5 / MinMax M2.7
超长上下文适合大体量项目续写;小游戏场景下表现稳健但上限一般。

轻量嵌入场景

Gemini 2.5 Flash / Doubao Seed 1.8
文件体积最小(≤12KB),适合教学 demo、嵌入式网页组件。

💸 完全免费 / 开源权重

GLM-5.1 / Qwen3.5-Plus / DeepSeek 3.1
开源权重可本地部署;官方 Web/API 均有免费额度或完全免费入口;GLM-5.1 在免费档综合表现最强。

🎓 学生 / 零成本 Try-out

Gemini 3 Flash / Kimi K2.5 / DoubaoSeed
国内/全球免费梯队:Kimi 网页版免费、豆包全免、Gemini Flash 每日免费额度充裕,适合课程作业与练手。

💎 付费旗舰 · 最强综合

Claude Opus 4.6 / GPT-5.4 / GPT-5.2
API 按 token 计费($15+/M output 档位),用于生产交付、关键决策、复杂需求——一次对话顶三次返工。

💰 付费 · 企业性价比

Claude Sonnet 4.6 / GPT-5.1 / Gemini 3.1 Pro
输出质量接近旗舰但价格约 1/5 ($3–5/M),适合高频批量调用、RAG、客服类工业场景。

🎨 前端 / Web 开发

Claude Opus 4.6 / GPT-5.4 / GLM-5.1
CSS 渐变、响应式布局、Canvas 绘制、动效编排都强;Claude 家族在 shadcn/Tailwind/React 组件生成上尤为突出。

🧮 算法 / 竞赛代码

GPT-5.3-Codex / DeepSeek 3.1 / GPT-5.4
HumanEval+ / LiveCodeBench 高分阵营;DeepSeek 在数学与逆向推理上代价最低、精度接近旗舰。

🤖 Agent / 工具调用

Claude Sonnet 4.6 / Kimi K2.5 / MinMax M2.7
天然具备工具调用链路与长期记忆;Kimi/MinMax 主打 Agent 场景,函数调用准确率与多步任务完成度高。

✍️ 中文内容创作

Qwen3.5-Plus / Doubao Seed / Kimi K2.5
中文语感自然、成语诗词引用恰当;Doubao 对口语化表达、抖音风文案的适配度最高。

🔐 本地 / 私有化部署

Qwen3-Coder-Next / GLM-5 / DeepSeek 3.1
开源权重 + 官方推理脚手架齐全(vLLM/llama.cpp 支持好),可完全离线运行,数据不出内网。

📱 IDE 内编码助手

Composer 2 / GPT-5.3-Codex / Lingma
Cursor Composer 专为 IDE 编排而生;Codex 分支原生支持 diff 编辑;Lingma(通义灵码)深度集成阿里系 IDE。

⚠️ 不建议使用

DoubaoSeedCode / Qwen3.5-Plus(当前版本)
前者实测 0/4 全挂;后者运行时抛 Assignment to constant variable 硬错误。等修复或换版本再用。
自动化运行时测试 · Runtime Audit
在隐藏 iframe 里真正加载每个游戏文件,注入错误钩子、模拟输入、对比 canvas 像素变化,得到 4 项硬指标① 能加载 ② 有渲染 ③ 响应输入 ④ 可以重开。这是本报告中唯一"真跑出来"的数据。
⚠ 通过 file:// 打开时,浏览器会阻止 fetch() 读取同目录文件,退化为 iframe 直加载模式(只能检测加载后的运行时错误)。 建议在本目录下运行 python -m http.server 8080,然后访问 http://localhost:8080/report.html 获取最完整结果。
未开始 · 每个模型约 5–7 秒,3 并发,总时长约 45–70 秒
模型 加载 渲染 响应 重开 自动分 人工复核 备注 运行时错误
点击上方按钮开始测试