AI大模型排行榜网站汇总

2025年 11月 4日 42点热度 0人点赞 0条评论

最近几年,AI 的发展真是快得离谱,大家都在关注一个问题:到底哪家模型更强?为此也出现了不少专门做“大模型排行榜”的网站。它们会根据各种评测维度,比如性能、推理速度、成本等,帮我们更直观地看清各个模型的能力分布。

下面整理了一些目前在更新的榜单合集,让对AI感兴趣的小伙伴能看到最新版本的对比,还能顺便了解下行业趋势,看看“谁又卷出了新高度”。

1.LMArena

网址:lmarena.ai/leaderboard

LMArena由加州大学伯克利分校的研究人员创建,是一个开放平台,每个人都可以轻松访问、探索并与世界领先的 AI 模型互动。通过并排比较这些模型并投票选出最佳模型,社区帮助塑造了一个公共排行榜,使 AI 进展更加透明,并扎根于实际应用。

2.SuperCLUE通用榜

网址:superclueai.com/homepage

中文综合评测,涵盖了数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、幻觉控制六大任务,其中数学推理、科学推理、代码生成为推理能力,智能体Agent、精确指令遵循、幻觉控制为应用能力。

3.Vellum.ai LLM Leaderboard

网址: vellum.ai/llm-leaderboard

简介与特点:跟踪 2024 年 4 月之后发布的最新模型,对比推理能力、上下文长度、成本与精度,包含 GPQA Diamond、AIME 等高难度基准。

4.Open LLM Leaderboard

网址 :vellum.ai/open-llm-leaderboard

简介与特点:由 Vellum 推出的开源榜单,展示社区模型在推理与问题求解任务上的最新表现。

5.LLM-Stats

简介与特点:每日更新,展示模型(如 GPT-5、Grok-4、Gemini 2.5 Pro)的速度、上下文窗口、定价及性能。

网址:llm-stats.com/benchmarks/llm-leaderboard-full

6.Scale AI SEAL

简介与特点:通过私有数据集与专家评审,比较前沿模型在鲁棒性与可靠性方面的差异。

网址:https://scale.com/leaderboard

7.LiveBench

简介与特点:每月测试模型,基于“无污染”基准评估推理、编程与数学能力。

网址:https://livebench.ai

8.Hugging Face Open LLM Leaderboard

简介与特点:使用 EleutherAI 评测框架,对开源模型进行标准化评估,是开源生态的核心榜单。

网址:huggingface.co/open-llm

9.MTEB (Massive Text Embedding Benchmark)

简介:评测文本嵌入模型,覆盖 56 个数据集、112 种语言,是主流 embedding 标准。

网址:https://huggingface.co/spaces/mteb/leaderboard

10.OpenCompass: CompassRank

简介:亚洲最具代表性的多语言评测平台,支持合规性与中文任务测试。

网址:rank.opencompass.org.cn

11.EQ-Bench

简介:评估模型的情绪智能与共情能力,基于 170 + 提示。

网址:eqbench.com/

12.Berkeley Function-Calling Leaderboard

简介:比较模型在结构化输出与函数调用方面的表现,聚焦企业 copilot 应用。

网址:gorilla.cs.berkeley.edu

13.CanAiCode Leaderboard

简介:针对代码生成模型的专项评测,突出小型模型的 text-to-code 能力。

网址:huggingface.co/spaces/m

14.AlpacaEval Leaderboard

简介:评测指令跟随能力,以 GPT-4 输出作为对照,快速衡量中小模型质量。

网址:https://tatsu-lab.github.io/alpaca_eval/

admin

这个人很懒,什么都没留下