Skip to content

LLM 模型评测与对比(2024 最新)

本文基于最新公开数据和基准测试,对比主流开源和闭源大语言模型的性能。

评测基准

核心基准(LLM Leaderboard)

Hugging Face Open LLM Leaderboard 使用以下核心基准:

基准类型样本数评估方式
MMLU多学科选择题1409957 个学科,四选一
HellaSwag常识推理10042选择最合理的结尾
GSM8K数学应用题13198年级数学,需逐步推理
MATH竞赛数学5000高中数学竞赛题
TruthfulQA真实性评估817避免常见误解

评分方式:Normalized score (0-100),标准化计算。

人类偏好基准

  • MT-Bench:多轮对话质量评估(GPT-4 打分)
  • AlpacaEval:基于 GPT-4 偏好的自动评估
  • Chatbot Arena:人类盲测(Elo 分数)

综合性能排名(2024 年初)

国际模型

模型参数规模MMLUGSM8KMATHMT-Bench开源
GPT-4~1.8T (MoE)86.492.052.99.32
Claude 3 Opus~1.5T (MoE)86.895.160.19.33
GPT-4 Turbo~1.8T (MoE)86.490.852.99.15
Claude 3 Sonnet~700B (MoE)80.792.148.28.54
Gemini 1.5 Pro~? (MoE)83.791.854.68.93
GPT-3.5 Turbo~175B70.057.119.57.88

开源模型

模型参数规模MMLUGSM8KMATH许可上下文长度
LLaMA 3 70B70B79.580.041.0llama38K
LLaMA 3 8B8B68.441.615.8llama38K
Mixtral 8x7B45B (激活 13B)77.672.734.1Apache 2.032K
Qwen 1.5 72B72B79.079.538.2免费商用32K
Qwen 1.5 14B14B71.359.023.7免费商用32K
Gemma 2 27B27B73.466.529.3Google TOS8K
Yi 34B34B76.372.231.0免费商用200K
DeepSeek-V2236B (MoE)78.580.739.8-128K
CodeLlama 34B34B65.853.818.8llama216K
ChatGLM3 6B6B63.432.212.5Apache 2.08K (128K 版本)

分领域详细对比

1. 代码能力

基准:HumanEval(通过率 @1)、MBPP(基础 Python 编程)

模型HumanEvalMBPP
GPT-467.0%71.0%
Claude 3 Opus74.4%73.5%
Gemini 1.5 Pro71.9%70.4%
CodeLlama 34B53.0%55.0%
StarCoder2 15B41.8%48.8%
CodeQwen 1.5 7B42.7%49.8%

结论:闭源模型代码能力领先,但 CodeLlama 和 CodeQwen 在开源模型中表现不错。

2. 数学推理

基准:GSM8K(8年级数学)、MATH(竞赛数学)

模型GSM8K (8-shot)MATH (4-shot)
GPT-492.0%52.9%
Claude 3 Opus95.1%60.1%
Gemini 1.5 Pro91.8%54.6%
Mixtral 8x7B72.7%34.1%
Qwen 1.5 72B79.5%38.2%
DeepSeek-V280.7%39.8%
Yi 34B72.2%31.0%

特点:Claude 3 Opus 数学最强,DeepSeek-V2 在开源模型中领先。

3. 常识推理

基准:HellaSwag, ARC-Challenge

模型HellaSwagARC-Challenge
GPT-495.3%85.2%
Claude 3 Opus94.9%85.7%
LLaMA 3 70B86.5%79.0%
Qwen 1.5 72B86.4%77.8%
Yi 34B84.4%76.8%

4. 指令遵循

基准:IFEval(指令遵循评测)、AlpacaEval 2.0(GPT-4 judge)

模型IFEvalAlpacaEval 2.0 (Win Rate)
GPT-4 Turbo86.5%57.5%
Claude 3 Opus85.3%60.3%
LLaMA 3 70B (Instruct)74.5%50.0%
Qwen 1.5 72B Chat73.2%49.8%
Mixtral 8x7B Instruct71.6%48.5%

结论:闭源模型指令遵循能力更强,但 LLaMA 3 差距已缩小。


成本效益分析

推理成本对比(API 定价)

模型输入价格 ($/1M tokens)输出价格 ($/1M tokens)
GPT-4 Turbo10.0030.00
Claude 3 Opus15.0075.00
Claude 3 Sonnet3.0015.00
GPT-3.5 Turbo0.501.50
自托管 LLaMA 3 70B硬件成本 ≈ 1.0-2.0硬件成本 ≈ 1.0-2.0

硬件需求(推理)

  • LLaMA 3 70B:2× A100 80GB(FP16),或 4× H100(量化 INT4)
  • Mixtral 8x7B:1× A100 80GB(约激活 13B)
  • Qwen 1.5 72B:2× A100 80GB

成本计算示例

每月 1 亿 tokens:
- GPT-4 Turbo:输入 $1000 + 输出 $3000 = $4000
- 自托管 LLaMA 3 70B(2×A100 3年折旧约 $2.5/小时):
  每小时约处理 200 万 tokens → 月成本 ≈ $900

结论:当用量足够大时(>5000万 tokens/月),自托管更划算。


多模态能力对比

模型图像理解视频理解OCR数学公式开源
GPT-4V✅ 极强
Claude 3 Sonnet/Opus✅ 极强
Gemini 1.5 Pro✅ 极强
LLaVA 1.6✅ 不错
CogVLM 2✅ 不错
Qwen-VL✅ 不错

多模态基准(MMMU, TextVQA)

  • GPT-4V: MMMU 71.6%
  • Claude 3 Opus: MMMU 70.0%
  • Gemini 1.5 Pro: MMMU 71.2%
  • LLaVA 1.6: MMMU 56.5%

上下文长度对比

模型原生上下文实际可用RoPE 扩展
GPT-4 Turbo128K~100K
Claude 3 系列200K~150K
Yi 34B200K200K
Qwen 1.532K/128K32K/128K
LLaMA 38K8K❌(未扩展)
Mixtral 8x7B32K32K
ChatGLM38K/128K版本相关

RoPE 扩展技术(让短上下文模型支持长文本):

  • YARN(YaRN):YaRN: Efficient Context Window Extension
  • NTK-aware:动态调整 RoPE 频率
  • LongLoRA:训练时扩展上下文,推理时无需修改

微调效果对比

使用相同指令微调数据集(如 UltraChat, ShareGPT)微调后:

基础模型AlpacaEval 2.0 Win Rate vs GPT-4
LLaMA 3 70B50.0% (打平 GPT-4)
Qwen 1.5 32B48.5%
Yi 34B47.8%
Mixtral 8x7B48.0%
Llama 2 70B43.2%

结论:LLaMA 3 指令微调后已能与 GPT-4 打平,这是开源模型的重大突破。


选择建议

按场景选择

场景推荐模型理由
通用对话 (国内)Qwen 1.5 / ChatGLM3中文能力强,免费商用,合规
代码生成Claude 3 / CodeLlamaClaude 代码能力最强,CodeLlama 开源可用
数学推理Claude 3 Opus / DeepSeek-V2Claude 数学 SOTA,DeepSeek 性价比高
长文档分析Yi 34B / Claude 200K超长上下文,Yi 免费商用
成本敏感 (B 端)Mixtral 8x7BMoE 架构,成本低,质量高
数据隐私 (部署)LLaMA 3 70B性能靠拢 GPT-4,完全自主控制

按预算选择

  • 无预算/研究:LLaMA 3 70B / Mixtral 8x7B / Qwen 1.5 72B
  • 每月 100-500 API 费用:Claude 3 Sonnet / GPT-4 Turbo
  • 每月 >$1000 API 费用:考虑自托管 LLaMA 3 70B
  • 企业级(隐私+性能):混合方案:敏感数据自托管,普通请求 API

评测局限性

  1. Benchmark Overfitting:模型可能在特定基准上过拟合
  2. 领域偏差:学术基准 vs 真实场景有差距
  3. 人类偏好难以量化:MT-Bench 仍是 GPT-4 打分,有偏差
  4. Prompt 敏感:不同提示工程导致得分差异大

建议

  • 不要只看总分,要看具体任务
  • 用你实际业务场景的测试集评估
  • A/B 测试真实用户体验

资源链接

模型迭代非常快,建议每月查看一次最新评测数据!