TOTAL MODEL AUDIT · 26 MODELS · 7 DIMENSIONS

AI 模型全维度客观评测报告

基于 本地 Flappy Bird 实现代码（行数、特性、架构）+ 互联网公开基准（SWE-Bench / LMArena / GPQA / HumanEval / MMLU）的双轨评估，对 26 个模型从 7 个产出维度 与 5 个行业指标 全面打分。

宏观指标概览

参评模型

跨 10 个家族

综合冠军

—

平均总分

—

满分 10

平均代码行

—

单文件 HTML

含音频引擎

—

WebAudio/Audio()

含粒子系统

—

Particle Effects

综合总分排行

加权方案：代码质量 20% · 视觉美术 15% · 完整度 15% · 物理手感 15% · 音效 10% · 性能 10% · 创新 15%（满分 10）。
引入"实测乘数 (Runtime Factor)"——在静态加权分之上，乘以 0.70/0.78/0.85/0.93/1.00 的系数（对应实测 0/1/2/3/4 项通过）。

全量模型总分（降序）

家族平均总分

七维能力雷达与复杂度-分数关系

雷达图：7 大产出维度对比（可切换模型）

点击上方芯片可切换对比对象，最多 6 个。默认展示各家族旗舰。

代码行数 vs 综合总分

甜蜜区约在 800–1200 行；过短往往完整度不足，过长（如 1447 行）会带来性能与维护开销。

行业基准：家族外部能力对比

数据来源：公开发布的评测榜单（SWE-Bench Verified、LMArena、GPQA Diamond、HumanEval+、MMLU-Pro）。由于各家族发版节奏不同，下表取 2025Q4–2026Q1 主力版本的公开得分做归一化处理（0–10），用于与本地产出交叉验证。

家族 · 5 项行业基准（归一化）

全模型 × 全维度热力表

颜色越亮代表该维度得分越高；右侧 Total 为综合总分（0–10）。

全模型详细数据总表

显示全部 26 个模型

模型名 ↕	家族	代码行数	大小	实测	总分	代码	视觉	完整	物理	音效	性能	创新	评级

逐模型详评

每张卡片包含：7 维小分、综合评级、对应家族定位、以及结合代码产出 + 行业基准的一句话点评。

使用场景推荐矩阵

生产级原型

Claude Opus 4.6 / GPT-5.4

美术、物理、音频、代码质量均位列 Top 3，一把生成接近可交付状态。

工程代码质量

GPT-5.3-Codex / Composer 2

结构严谨、函数边界清晰；SWE-Bench Verified 基准表现最稳。

性价比 / 快速迭代

Gemini 3 Flash / GPT-5-nano

生成速度快、token 成本低，仍保有完整游戏循环与音效。

中文圈自研首选

GLM-5.1 / Qwen3.5-Plus

国产模型中能在同等代码量下做到粒子系统 + 渐变美术的仅此几家。

长上下文 / 复杂系统

Kimi K2.5 / MinMax M2.7

超长上下文适合大体量项目续写；小游戏场景下表现稳健但上限一般。

轻量嵌入场景

Gemini 2.5 Flash / Doubao Seed 1.8

文件体积最小（≤12KB），适合教学 demo、嵌入式网页组件。

💸 完全免费 / 开源权重

GLM-5.1 / Qwen3.5-Plus / DeepSeek 3.1

开源权重可本地部署；官方 Web/API 均有免费额度或完全免费入口；GLM-5.1 在免费档综合表现最强。

🎓 学生 / 零成本 Try-out

Gemini 3 Flash / Kimi K2.5 / DoubaoSeed

国内/全球免费梯队：Kimi 网页版免费、豆包全免、Gemini Flash 每日免费额度充裕，适合课程作业与练手。

💎 付费旗舰 · 最强综合

Claude Opus 4.6 / GPT-5.4 / GPT-5.2

API 按 token 计费（$15+/M output 档位），用于生产交付、关键决策、复杂需求——一次对话顶三次返工。

💰 付费 · 企业性价比

Claude Sonnet 4.6 / GPT-5.1 / Gemini 3.1 Pro

输出质量接近旗舰但价格约 1/5 ($3–5/M)，适合高频批量调用、RAG、客服类工业场景。

🎨 前端 / Web 开发

Claude Opus 4.6 / GPT-5.4 / GLM-5.1

CSS 渐变、响应式布局、Canvas 绘制、动效编排都强；Claude 家族在 shadcn/Tailwind/React 组件生成上尤为突出。

🧮 算法 / 竞赛代码

GPT-5.3-Codex / DeepSeek 3.1 / GPT-5.4

HumanEval+ / LiveCodeBench 高分阵营；DeepSeek 在数学与逆向推理上代价最低、精度接近旗舰。

🤖 Agent / 工具调用

Claude Sonnet 4.6 / Kimi K2.5 / MinMax M2.7

天然具备工具调用链路与长期记忆；Kimi/MinMax 主打 Agent 场景，函数调用准确率与多步任务完成度高。

✍️ 中文内容创作

Qwen3.5-Plus / Doubao Seed / Kimi K2.5

中文语感自然、成语诗词引用恰当；Doubao 对口语化表达、抖音风文案的适配度最高。

🔐 本地 / 私有化部署

Qwen3-Coder-Next / GLM-5 / DeepSeek 3.1

开源权重 + 官方推理脚手架齐全（vLLM/llama.cpp 支持好），可完全离线运行，数据不出内网。

📱 IDE 内编码助手

Composer 2 / GPT-5.3-Codex / Lingma

Cursor Composer 专为 IDE 编排而生；Codex 分支原生支持 diff 编辑；Lingma（通义灵码）深度集成阿里系 IDE。

⚠️ 不建议使用

DoubaoSeedCode / Qwen3.5-Plus（当前版本）

前者实测 0/4 全挂；后者运行时抛 Assignment to constant variable 硬错误。等修复或换版本再用。

自动化运行时测试 · Runtime Audit

在隐藏 iframe 里真正加载每个游戏文件，注入错误钩子、模拟输入、对比 canvas 像素变化，得到 4 项硬指标： ① 能加载 ② 有渲染 ③ 响应输入 ④ 可以重开。这是本报告中唯一"真跑出来"的数据。

⚠ 通过 file:// 打开时，浏览器会阻止 fetch() 读取同目录文件，退化为 iframe 直加载模式（只能检测加载后的运行时错误）。建议在本目录下运行 python -m http.server 8080，然后访问 http://localhost:8080/report.html 获取最完整结果。

未开始 · 每个模型约 5–7 秒，3 并发，总时长约 45–70 秒

模型	加载	渲染	响应	重开	自动分	人工复核	备注	运行时错误
点击上方按钮开始测试