Benchmarks · /benchmarks/artificial-analysis-apex-agents

APEX-Agents-AA

Name: APEX-Agents-AA
Creator: Artificial Analysis

APEX-Agents-AA result as reported through Artificial Analysis.

Source · Artificial Analysis
Version · artificial-analysis snapshot 2026-06-24
Scores · 25

Test details

Visible tradeoffsThis is an objective signal, so it is mainly about measurable task performance rather than public taste.

source

Artificial Analysis

metric

Score (%)

judge

Objective

direction

higher better

group id

aa_apex_agents_current

domain

Professional reasoning

What it measures vs what it misses

✓ Measures

Long-horizon agentic task completion.

✗ Misses

Adjacent capabilities, subjective preference, latency, and cost.

Why this countsLong-horizon agentic task completion.Same-test ruleThis percentile only compares models inside the exact benchmark/version group shown here. It is not a universal score.What it missesAdjacent capabilities, subjective preference, latency, and cost.

Leaderboard · this benchmark version

#1 · Gemini 3.5 Flash

AA · Jun 24, 2026

Source label: Gemini 3.5 Flash (high)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 100%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

47.1%

#2 · GPT-5.5

AA · Jun 24, 2026

Source label: GPT-5.5 (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 95.8%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

37.7%

#3 · GPT-5.4

AA · Jun 24, 2026

Source label: GPT-5.4 (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 91.7%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

33.3%

#4 · Claude Opus 4.6

AA · Jun 24, 2026

Source label: Claude Opus 4.6 (Adaptive Reasoning, Max Effort)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 87.5%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

33%

#5 · Gemini 3.1 Pro Preview

AA · Jun 24, 2026

Source label: Gemini 3.1 Pro Preview

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 83.3%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

32%

#6 · kimi-k2.6

AA · Jun 24, 2026

Source label: Kimi K2.6

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 79.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28.5%

#7 · GPT-5.4 mini

AA · Jun 24, 2026

Source label: GPT-5.4 mini (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 75%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28.2%

#8 · Claude Sonnet 4.6

AA · Jun 24, 2026

Source label: Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 70.8%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28%

#9 · Gemini 3 Flash

AA · Jun 24, 2026

Source label: Gemini 3 Flash Preview (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 66.7%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

27.7%

#10 · GPT-5.4 nano

AA · Jun 24, 2026

Source label: GPT-5.4 nano (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 62.5%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

24.9%

#11 · deepseek-v4-pro

AA · Jun 24, 2026

Source label: DeepSeek V4 Pro (Reasoning, Max Effort)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 58.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

24.3%

#12 · Qwen3.7 Plus

AA · Jun 24, 2026

Source label: Qwen3.7 Plus

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 54.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

22.4%

#13 · Grok 4.3

AA · Jun 24, 2026

Source label: Grok 4.3 (high)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 50%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

17%

#14 · Qwen3.5 397B A17B

AA · Jun 24, 2026

Source label: Qwen3.5 397B A17B (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 45.8%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

15.3%

#15 · Step 3.7 Flash

AA · Jun 24, 2026

Source label: Step 3.7 Flash

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 41.7%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.8%

#16 · DeepSeek Chat

AA · Jun 24, 2026

Source label: DeepSeek V3.2 (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 37.5%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.5%

#17 · glm-5

AA · Jun 24, 2026

Source label: GLM-5 (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 33.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.5%

#18 · Grok 4.20

AA · Jun 24, 2026

Source label: Grok 4.20 0309 (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 29.2%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.2%

#19 · Gemini 3.1 Flash-Lite Preview

AA · Jun 24, 2026

Source label: Gemini 3.1 Flash-Lite

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 25%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

12.2%

#20 · Kimi K2.5 (Reasoning)

AA · Jun 24, 2026

Source label: Kimi K2.5 (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 20.8%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

11.5%

#21 · minimax-m2.7

AA · Jun 24, 2026

Source label: MiniMax-M2.7

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 16.7%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

10.6%

#22 · GPT-OSS 120B

AA · Jun 24, 2026

Source label: gpt-oss-120b (high)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 12.5%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

3.1%

#23 · mimo-v2.5-pro

AA · Jun 24, 2026

Source label: MiMo-V2.5-Pro

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 8.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

2.4%

#24 · nvidia-nemotron-3-super-120b-a12b

AA · Jun 24, 2026

Source label: NVIDIA Nemotron 3 Super 120B A12B (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 4.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

1.8%

#25 · GPT-OSS 20B

AA · Jun 24, 2026

Source label: gpt-oss-20B (high)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 0%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

0.7%

Benchmarks · /benchmarks/artificial-analysis-apex-agents

APEX-Agents-AA

APEX-Agents-AA result as reported through Artificial Analysis.

Source · Artificial Analysis
Version · artificial-analysis snapshot 2026-06-24
Scores · 25

Test details

Visible tradeoffsThis is an objective signal, so it is mainly about measurable task performance rather than public taste.

source

Artificial Analysis

metric

Score (%)

judge

Objective

direction

higher better

group id

aa_apex_agents_current

domain

Professional reasoning

What it measures vs what it misses

✓ Measures

Long-horizon agentic task completion.

✗ Misses

Adjacent capabilities, subjective preference, latency, and cost.

Leaderboard · this benchmark version

#1 · Gemini 3.5 Flash

AA · Jun 24, 2026

Source label: Gemini 3.5 Flash (high)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 100%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

47.1%

#2 · GPT-5.5

AA · Jun 24, 2026

Source label: GPT-5.5 (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 95.8%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

37.7%

#3 · GPT-5.4

AA · Jun 24, 2026

Source label: GPT-5.4 (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 91.7%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

33.3%

#4 · Claude Opus 4.6

AA · Jun 24, 2026

Source label: Claude Opus 4.6 (Adaptive Reasoning, Max Effort)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 87.5%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

33%

#5 · Gemini 3.1 Pro Preview

AA · Jun 24, 2026

Source label: Gemini 3.1 Pro Preview

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 83.3%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

32%

#6 · kimi-k2.6

AA · Jun 24, 2026

Source label: Kimi K2.6

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 79.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28.5%

#7 · GPT-5.4 mini

AA · Jun 24, 2026

Source label: GPT-5.4 mini (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 75%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28.2%

#8 · Claude Sonnet 4.6

AA · Jun 24, 2026

Source label: Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 70.8%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

28%

#9 · Gemini 3 Flash

AA · Jun 24, 2026

Source label: Gemini 3 Flash Preview (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 66.7%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

27.7%

#10 · GPT-5.4 nano

AA · Jun 24, 2026

Source label: GPT-5.4 nano (xhigh)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 62.5%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

24.9%

#11 · deepseek-v4-pro

AA · Jun 24, 2026

Source label: DeepSeek V4 Pro (Reasoning, Max Effort)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 58.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

24.3%

#12 · Qwen3.7 Plus

AA · Jun 24, 2026

Source label: Qwen3.7 Plus

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 54.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

22.4%

#13 · Grok 4.3

AA · Jun 24, 2026

Source label: Grok 4.3 (high)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 50%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

17%

#14 · Qwen3.5 397B A17B

AA · Jun 24, 2026

Source label: Qwen3.5 397B A17B (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 45.8%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

15.3%

#15 · Step 3.7 Flash

AA · Jun 24, 2026

Source label: Step 3.7 Flash

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 41.7%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.8%

#16 · DeepSeek Chat

AA · Jun 24, 2026

Source label: DeepSeek V3.2 (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 37.5%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.5%

#17 · glm-5

AA · Jun 24, 2026

Source label: GLM-5 (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 33.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.5%

#18 · Grok 4.20

AA · Jun 24, 2026

Source label: Grok 4.20 0309 (Reasoning)

verified runtimeexact alias

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 29.2%
Last updated: recent
Eligibility: headline eligible
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

14.2%

#19 · Gemini 3.1 Flash-Lite Preview

AA · Jun 24, 2026

Source label: Gemini 3.1 Flash-Lite

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 25%
Last updated: recent
Eligibility: preview_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

12.2%

#20 · Kimi K2.5 (Reasoning)

AA · Jun 24, 2026

Source label: Kimi K2.5 (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 20.8%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

11.5%

#21 · minimax-m2.7

AA · Jun 24, 2026

Source label: MiniMax-M2.7

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 16.7%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

10.6%

#22 · GPT-OSS 120B

AA · Jun 24, 2026

Source label: gpt-oss-120b (high)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 12.5%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

3.1%

#23 · mimo-v2.5-pro

AA · Jun 24, 2026

Source label: MiMo-V2.5-Pro

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 8.3%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

2.4%

#24 · nvidia-nemotron-3-super-120b-a12b

AA · Jun 24, 2026

Source label: NVIDIA Nemotron 3 Super 120B A12B (Reasoning)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 4.2%
Last updated: recent
Eligibility: benchmark_derived_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

1.8%

#25 · GPT-OSS 20B

AA · Jun 24, 2026

Source label: gpt-oss-20B (high)

verified runtimeexact aliasBackground only

Raw row drilldownsource, percentile, eligibility

Source URL: https://artificialanalysis.ai/leaderboards/models
Percentile: 0%
Last updated: recent
Eligibility: historical_model
Identity: provider alias (0.94)

Parsed from Artificial Analysis public leaderboard field `apexAgents`.

0.7%

APEX-Agents-AA

Test details

What it measures vs what it misses

✓ Measures

✗ Misses

Leaderboard · this benchmark version

Loading benchmark evidence.

APEX-Agents-AA

Test details

What it measures vs what it misses

✓ Measures

✗ Misses

Leaderboard · this benchmark version