实时模型排行雷达

模型排行

覆盖图片、视频、Coding、音频、OCR/文档和视觉模型的实用榜单页。优先使用公开 API 与 raw CSV,HTML 榜单只作交叉参考。

来源 LMArena Text-to-Image 正在加载实时榜单数据...
原始来源

排行来源

排名 模型 机构 分数 开放状态 证据
正在加载实时榜单数据...

数据源矩阵

每个来源都标注同步方式和可信度,方便 Codex 后续决定哪些自动抓取、哪些只做参考。

API 同步 高可信

LMArena Text-to-Image

适合作为开闭源混合图片生成排行的主同步源。

指标
Arena rating,越高越好
频率
每 30 分钟同步;上游 latest split 随 LMArena 发布节奏更新。
开源与闭源混合 原始来源
API 同步 高可信

LMArena Image Edit

补充图片编辑模型,例如 GPT Image、Gemini 图像、Seedream 等。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
API 同步 高可信

LMArena Text-to-Video

文生视频主同步源,覆盖字节、快手、xAI、Google 等厂商。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
API 同步 高可信

LMArena Image-to-Video

图生视频工作流的补充同步源。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
API 同步 高可信

SWE-bench Verified

真实 GitHub issue 修复类 Agent Coding 的最佳结构化来源。

指标
Resolved 百分比,越高越好
频率
每小时同步;来源为 Hugging Face benchmark leaderboard API。
开源与闭源混合 原始来源
API 同步 高可信

LMArena WebDev

补充 SWE-bench,覆盖网页开发偏好排行。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
API 同步 高可信

Open ASR Leaderboard

语音识别强来源;音频生成榜单仍需要二级人工/解析来源补充。

指标
平均 WER,越低越好
频率
可按小时或每日同步;benchmark API 结构化且可复现。
开源与闭源混合 原始来源
CSV 同步 中可信

OCRBench v2 English

适合 OCR 和文字密集视觉理解;建议同步到 D1 后做中等可信展示。

指标
Average Score,越高越好
频率
每日从 raw CSV 同步;上游发布节奏不如 HF benchmark API 规范。
开源与闭源混合 原始来源
CSV 同步 中可信

OCRBench v2 Chinese

中文 OCR 与文档理解补充榜单。

指标
Average Score,越高越好
频率
每日从 raw CSV 同步。
开源与闭源混合 原始来源
API 同步 高可信

LMArena Document

文档类多模态任务的可同步来源。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
API 同步 高可信

LMArena Vision

通用视觉推理和多模态模型对比。

指标
Arena rating,越高越好
频率
每 30 分钟同步。
开源与闭源混合 原始来源
HTML 观察 观察源

Artificial Analysis Video

公开质量较高,但 HTML 解析比 benchmark API 更脆弱。

指标
Video Arena ELO,越高越好
频率
没有稳定公开 API 前,只作交叉参考。
开源与闭源混合 原始来源
HTML 观察 观察源

Aider Polyglot

覆盖 C++、Go、Java、JavaScript、Python、Rust 的代码编辑榜单,但暂未发现稳定 JSON。

指标
Pass rate,越高越好
频率
人工或 HTML 解析备用;适合作为代码编辑能力交叉参考。
开源与闭源混合 原始来源