加权方案:代码质量 20% · 视觉美术 15% · 完整度 15% · 物理手感 15% · 音效 10% · 性能 10% · 创新 15%(满分 10)。
引入"实测乘数 (Runtime Factor)"——在静态加权分之上,乘以 0.70/0.78/0.85/0.93/1.00 的系数(对应实测 0/1/2/3/4 项通过)。
数据来源:公开发布的评测榜单(SWE-Bench Verified、LMArena、GPQA Diamond、HumanEval+、MMLU-Pro)。
由于各家族发版节奏不同,下表取 2025Q4–2026Q1 主力版本的公开得分做归一化处理(0–10),用于与本地产出交叉验证。
生产级原型
Claude Opus 4.6 / GPT-5.4
美术、物理、音频、代码质量均位列 Top 3,一把生成接近可交付状态。
工程代码质量
GPT-5.3-Codex / Composer 2
结构严谨、函数边界清晰;SWE-Bench Verified 基准表现最稳。
性价比 / 快速迭代
Gemini 3 Flash / GPT-5-nano
生成速度快、token 成本低,仍保有完整游戏循环与音效。
中文圈自研首选
GLM-5.1 / Qwen3.5-Plus
国产模型中能在同等代码量下做到粒子系统 + 渐变美术的仅此几家。
长上下文 / 复杂系统
Kimi K2.5 / MinMax M2.7
超长上下文适合大体量项目续写;小游戏场景下表现稳健但上限一般。
轻量嵌入场景
Gemini 2.5 Flash / Doubao Seed 1.8
文件体积最小(≤12KB),适合教学 demo、嵌入式网页组件。
💸 完全免费 / 开源权重
GLM-5.1 / Qwen3.5-Plus / DeepSeek 3.1
开源权重可本地部署;官方 Web/API 均有免费额度或完全免费入口;GLM-5.1 在免费档综合表现最强。
🎓 学生 / 零成本 Try-out
Gemini 3 Flash / Kimi K2.5 / DoubaoSeed
国内/全球免费梯队:Kimi 网页版免费、豆包全免、Gemini Flash 每日免费额度充裕,适合课程作业与练手。
💎 付费旗舰 · 最强综合
Claude Opus 4.6 / GPT-5.4 / GPT-5.2
API 按 token 计费($15+/M output 档位),用于生产交付、关键决策、复杂需求——一次对话顶三次返工。
💰 付费 · 企业性价比
Claude Sonnet 4.6 / GPT-5.1 / Gemini 3.1 Pro
输出质量接近旗舰但价格约 1/5 ($3–5/M),适合高频批量调用、RAG、客服类工业场景。
🎨 前端 / Web 开发
Claude Opus 4.6 / GPT-5.4 / GLM-5.1
CSS 渐变、响应式布局、Canvas 绘制、动效编排都强;Claude 家族在 shadcn/Tailwind/React 组件生成上尤为突出。
🧮 算法 / 竞赛代码
GPT-5.3-Codex / DeepSeek 3.1 / GPT-5.4
HumanEval+ / LiveCodeBench 高分阵营;DeepSeek 在数学与逆向推理上代价最低、精度接近旗舰。
🤖 Agent / 工具调用
Claude Sonnet 4.6 / Kimi K2.5 / MinMax M2.7
天然具备工具调用链路与长期记忆;Kimi/MinMax 主打 Agent 场景,函数调用准确率与多步任务完成度高。
✍️ 中文内容创作
Qwen3.5-Plus / Doubao Seed / Kimi K2.5
中文语感自然、成语诗词引用恰当;Doubao 对口语化表达、抖音风文案的适配度最高。
🔐 本地 / 私有化部署
Qwen3-Coder-Next / GLM-5 / DeepSeek 3.1
开源权重 + 官方推理脚手架齐全(vLLM/llama.cpp 支持好),可完全离线运行,数据不出内网。
📱 IDE 内编码助手
Composer 2 / GPT-5.3-Codex / Lingma
Cursor Composer 专为 IDE 编排而生;Codex 分支原生支持 diff 编辑;Lingma(通义灵码)深度集成阿里系 IDE。
⚠️ 不建议使用
DoubaoSeedCode / Qwen3.5-Plus(当前版本)
前者实测 0/4 全挂;后者运行时抛 Assignment to constant variable 硬错误。等修复或换版本再用。