Model profile · Qwen

qwen3-vl-235b-a22b-thinking

Open weightsmid · registry tag 2026 benchmark-derived

Thin verified coverage

Reads as thin verified coverage across the resolved source data.

Visible coverage: 1.4%
Verified coverage: 1.4%
Spread: n/a
Last verified: Jun 20, 2026

textcodevision1 aliases31 official source links

Open compare

Data version

Current snapshot.

Data version Jun 20, 2026Model list checked9 providers · 1081 tracked modelsPage refreshed Jul 5, 2026

The registry snapshot and page stamp are shown so a stale deploy is visible at a glance.

Source-linked scores by benchmark

Each row keeps the benchmark source, source type, raw metric, and percentile inside its fair comparison set.

Thin verified coverageThis model currently reads as thin verified coverage across the resolved source data.

Chat / text18 benchmarks68.8%

Text Arena

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #103

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,396
Percentile: 68.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: overall. Source rank: #125. Votes: 7944. Organization: alibaba. License: Apache 2.0.

68.6% percentile inside its fair comparison set

1,396Raw benchmark valueCI 1,389 - 1,403

Text Arena · Creative Writing

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #124

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,339
Percentile: 61.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: creative_writing. Source rank: #149. Votes: 1033. Organization: alibaba. License: Apache 2.0.

61.9% percentile inside its fair comparison set

1,339Raw benchmark valueCI 1,321 - 1,357

Text Arena · English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #109

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,404
Percentile: 66.8%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: english. Source rank: #132. Votes: 3887. Organization: alibaba. License: Apache 2.0.

66.8% percentile inside its fair comparison set

1,404Raw benchmark valueCI 1,394 - 1,413

Text Arena · Exclude Ties

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #106

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,373
Percentile: 67.7%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: exclude_ties. Source rank: #128. Votes: 5589. Organization: alibaba. License: Apache 2.0.

67.7% percentile inside its fair comparison set

1,373Raw benchmark valueCI 1,364 - 1,383

Text Arena · Hard Prompts

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #98

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,419
Percentile: 70.2%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: hard_prompts. Source rank: #119. Votes: 4040. Organization: alibaba. License: Apache 2.0.

70.2% percentile inside its fair comparison set

1,419Raw benchmark valueCI 1,410 - 1,428

Text Arena · Hard Prompts English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #109

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,420
Percentile: 66.7%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: hard_prompts_english. Source rank: #132. Votes: 2097. Organization: alibaba. License: Apache 2.0.

66.7% percentile inside its fair comparison set

1,420Raw benchmark valueCI 1,407 - 1,432

Text Arena · Instruction Following

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #105

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,384
Percentile: 68%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: instruction_following. Source rank: #129. Votes: 2132. Organization: alibaba. License: Apache 2.0.

68% percentile inside its fair comparison set

1,384Raw benchmark valueCI 1,372 - 1,396

Text Arena · Longer Query

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #97

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 68.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: longer_query. Source rank: #121. Votes: 1732. Organization: alibaba. License: Apache 2.0.

68.4% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,394 - 1,421

Text Arena · Multi Turn

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #116

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,387
Percentile: 64.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: multi_turn. Source rank: #140. Votes: 1288. Organization: alibaba. License: Apache 2.0.

64.4% percentile inside its fair comparison set

1,387Raw benchmark valueCI 1,371 - 1,404

Text Arena · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #94

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,401
Percentile: 71.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: overall. Source rank: #113. Votes: 7944. Organization: alibaba. License: Apache 2.0.

71.4% percentile inside its fair comparison set

1,401Raw benchmark valueCI 1,394 - 1,408

Text Arena · Creative Writing · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #109

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,344
Percentile: 66.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: creative_writing. Source rank: #133. Votes: 1033. Organization: alibaba. License: Apache 2.0.

66.6% percentile inside its fair comparison set

1,344Raw benchmark valueCI 1,326 - 1,362

Text Arena · English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #86

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,418
Percentile: 73.8%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: english. Source rank: #102. Votes: 3887. Organization: alibaba. License: Apache 2.0.

73.8% percentile inside its fair comparison set

1,418Raw benchmark valueCI 1,408 - 1,427

Text Arena · Exclude Ties · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #94

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,380
Percentile: 71.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: exclude_ties. Source rank: #113. Votes: 5589. Organization: alibaba. License: Apache 2.0.

71.4% percentile inside its fair comparison set

1,380Raw benchmark valueCI 1,370 - 1,389

Text Arena · Hard Prompts · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #91

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,408
Percentile: 72.3%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: hard_prompts. Source rank: #109. Votes: 4040. Organization: alibaba. License: Apache 2.0.

72.3% percentile inside its fair comparison set

1,408Raw benchmark valueCI 1,399 - 1,417

Text Arena · Hard Prompts English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #90

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,415
Percentile: 72.5%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: hard_prompts_english. Source rank: #108. Votes: 2097. Organization: alibaba. License: Apache 2.0.

72.5% percentile inside its fair comparison set

1,415Raw benchmark valueCI 1,403 - 1,428

Text Arena · Instruction Following · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #99

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,375
Percentile: 69.8%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: instruction_following. Source rank: #121. Votes: 2132. Organization: alibaba. License: Apache 2.0.

69.8% percentile inside its fair comparison set

1,375Raw benchmark valueCI 1,362 - 1,387

Text Arena · Longer Query · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #94

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,394
Percentile: 69.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: longer_query. Source rank: #116. Votes: 1732. Organization: alibaba. License: Apache 2.0.

69.4% percentile inside its fair comparison set

1,394Raw benchmark valueCI 1,380 - 1,407

Text Arena · Multi Turn · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #101

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,389
Percentile: 69%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: multi_turn. Source rank: #122. Votes: 1288. Organization: alibaba. License: Apache 2.0.

69% percentile inside its fair comparison set

1,389Raw benchmark valueCI 1,373 - 1,406

Coding2 benchmarks74.2%

Text Arena · Coding

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #88

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,456
Percentile: 72.8%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: coding. Source rank: #108. Votes: 1625. Organization: alibaba. License: Apache 2.0.

72.8% percentile inside its fair comparison set

1,456Raw benchmark valueCI 1,441 - 1,470

Text Arena · Coding · No Style Control

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #79

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,428
Percentile: 75.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: coding. Source rank: #96. Votes: 1625. Organization: alibaba. License: Apache 2.0.

75.6% percentile inside its fair comparison set

1,428Raw benchmark valueCI 1,414 - 1,442

Reasoning / math / science2 benchmarks74.2%

Text Arena · Math

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #89

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,405
Percentile: 72%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: math. Source rank: #111. Votes: 427. Organization: alibaba. License: Apache 2.0.

72% percentile inside its fair comparison set

1,405Raw benchmark valueCI 1,377 - 1,434

Text Arena · Math · No Style Control

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #75

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,415
Percentile: 76.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: math. Source rank: #91. Votes: 427. Organization: alibaba. License: Apache 2.0.

76.4% percentile inside its fair comparison set

1,415Raw benchmark valueCI 1,386 - 1,443

Professional reasoning18 benchmarks71.4%

Text Arena · Expert

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #78

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,434
Percentile: 72%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: expert. Source rank: #97. Votes: 378. Organization: alibaba. License: Apache 2.0.

72% percentile inside its fair comparison set

1,434Raw benchmark valueCI 1,404 - 1,464

Text Arena · Industry Business And Management And Financial Operations

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #104

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,393
Percentile: 67.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_business_and_management_and_financial_operations. Source rank: #126. Votes: 1582. Organization: alibaba. License: Apache 2.0.

67.6% percentile inside its fair comparison set

1,393Raw benchmark valueCI 1,378 - 1,407

Text Arena · Industry Entertainment And Sports And Media

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #98

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,362
Percentile: 70%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_entertainment_and_sports_and_media. Source rank: #122. Votes: 1449. Organization: alibaba. License: Apache 2.0.

70% percentile inside its fair comparison set

1,362Raw benchmark valueCI 1,347 - 1,377

Text Arena · Industry Legal And Government

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #99

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,404
Percentile: 67.1%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_legal_and_government. Source rank: #122. Votes: 512. Organization: alibaba. License: Apache 2.0.

67.1% percentile inside its fair comparison set

1,404Raw benchmark valueCI 1,379 - 1,429

Text Arena · Industry Life And Physical And Social Science

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #108

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 66.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_life_and_physical_and_social_science. Source rank: #131. Votes: 1251. Organization: alibaba. License: Apache 2.0.

66.9% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,390 - 1,423

Text Arena · Industry Mathematical

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #68

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,432
Percentile: 78.2%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_mathematical. Source rank: #83. Votes: 376. Organization: alibaba. License: Apache 2.0.

78.2% percentile inside its fair comparison set

1,432Raw benchmark valueCI 1,403 - 1,462

Text Arena · Industry Medicine And Healthcare

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #104

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,414
Percentile: 65.1%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_medicine_and_healthcare. Source rank: #127. Votes: 433. Organization: alibaba. License: Apache 2.0.

65.1% percentile inside its fair comparison set

1,414Raw benchmark valueCI 1,386 - 1,442

Text Arena · Industry Software And It Services

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #94

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,437
Percentile: 71.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_software_and_it_services. Source rank: #114. Votes: 2835. Organization: alibaba. License: Apache 2.0.

71.4% percentile inside its fair comparison set

1,437Raw benchmark valueCI 1,426 - 1,448

Text Arena · Industry Writing And Literature And Language

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #111

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,366
Percentile: 66%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_writing_and_literature_and_language. Source rank: #136. Votes: 1759. Organization: alibaba. License: Apache 2.0.

66% percentile inside its fair comparison set

1,366Raw benchmark valueCI 1,352 - 1,380

Text Arena · Expert · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #71

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,422
Percentile: 74.5%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: expert. Source rank: #87. Votes: 378. Organization: alibaba. License: Apache 2.0.

74.5% percentile inside its fair comparison set

1,422Raw benchmark valueCI 1,391 - 1,452

Text Arena · Industry Business And Management And Financial Operations · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #95

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,392
Percentile: 70.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_business_and_management_and_financial_operations. Source rank: #113. Votes: 1582. Organization: alibaba. License: Apache 2.0.

70.4% percentile inside its fair comparison set

1,392Raw benchmark valueCI 1,377 - 1,406

Text Arena · Industry Entertainment And Sports And Media · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #84

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,370
Percentile: 74.3%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_entertainment_and_sports_and_media. Source rank: #102. Votes: 1449. Organization: alibaba. License: Apache 2.0.

74.3% percentile inside its fair comparison set

1,370Raw benchmark valueCI 1,355 - 1,385

Text Arena · Industry Legal And Government · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #89

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 70.5%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_legal_and_government. Source rank: #108. Votes: 512. Organization: alibaba. License: Apache 2.0.

70.5% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,384 - 1,433

Text Arena · Industry Life And Physical And Social Science · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #95

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,412
Percentile: 70.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_life_and_physical_and_social_science. Source rank: #114. Votes: 1251. Organization: alibaba. License: Apache 2.0.

70.9% percentile inside its fair comparison set

1,412Raw benchmark valueCI 1,396 - 1,429

Text Arena · Industry Mathematical · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #48

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,437
Percentile: 84.7%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_mathematical. Source rank: #57. Votes: 376. Organization: alibaba. License: Apache 2.0.

84.7% percentile inside its fair comparison set

1,437Raw benchmark valueCI 1,408 - 1,466

Text Arena · Industry Medicine And Healthcare · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #84

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,416
Percentile: 71.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_medicine_and_healthcare. Source rank: #100. Votes: 433. Organization: alibaba. License: Apache 2.0.

71.9% percentile inside its fair comparison set

1,416Raw benchmark valueCI 1,387 - 1,444

Text Arena · Industry Software And It Services · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #84

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,427
Percentile: 74.5%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_software_and_it_services. Source rank: #101. Votes: 2835. Organization: alibaba. License: Apache 2.0.

74.5% percentile inside its fair comparison set

1,427Raw benchmark valueCI 1,416 - 1,438

Text Arena · Industry Writing And Literature And Language · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #102

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,365
Percentile: 68.8%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: industry_writing_and_literature_and_language. Source rank: #125. Votes: 1759. Organization: alibaba. License: Apache 2.0.

68.8% percentile inside its fair comparison set

1,365Raw benchmark valueCI 1,351 - 1,379

Vision understanding12 benchmarks48.1%

Vision Arena

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #52

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,190
Percentile: 53.2%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: overall. Source rank: #63. Votes: 2363. Organization: alibaba. License: Apache 2.0.

53.2% percentile inside its fair comparison set

1,190Raw benchmark valueCI 1,178 - 1,203

Vision Arena · Diagram

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #49

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,211
Percentile: 31.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: diagram. Source rank: #61. Votes: 480. Organization: alibaba. License: Apache 2.0.

31.4% percentile inside its fair comparison set

1,211Raw benchmark valueCI 1,185 - 1,237

Vision Arena · English

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #49

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,197
Percentile: 56%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: english. Source rank: #60. Votes: 1103. Organization: alibaba. License: Apache 2.0.

56% percentile inside its fair comparison set

1,197Raw benchmark valueCI 1,179 - 1,215

Vision Arena · Homework

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #45

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,227
Percentile: 35.3%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: homework. Source rank: #58. Votes: 311. Organization: alibaba. License: Apache 2.0.

35.3% percentile inside its fair comparison set

1,227Raw benchmark valueCI 1,196 - 1,258

Vision Arena · Ocr

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #50

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,201
Percentile: 30%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: ocr. Source rank: #61. Votes: 1357. Organization: alibaba. License: Apache 2.0.

30% percentile inside its fair comparison set

1,201Raw benchmark valueCI 1,186 - 1,217

Vision Arena · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #44

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,208
Percentile: 60.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: overall. Source rank: #56. Votes: 2363. Organization: alibaba. License: Apache 2.0.

60.6% percentile inside its fair comparison set

1,208Raw benchmark valueCI 1,196 - 1,221

Vision Arena · Diagram · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #43

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,215
Percentile: 40%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: diagram. Source rank: #55. Votes: 480. Organization: alibaba. License: Apache 2.0.

40% percentile inside its fair comparison set

1,215Raw benchmark valueCI 1,189 - 1,240

Vision Arena · English · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #42

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,219
Percentile: 62.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: english. Source rank: #54. Votes: 1103. Organization: alibaba. License: Apache 2.0.

62.4% percentile inside its fair comparison set

1,219Raw benchmark valueCI 1,202 - 1,237

Vision Arena · Homework · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #42

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,234
Percentile: 39.7%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: homework. Source rank: #53. Votes: 311. Organization: alibaba. License: Apache 2.0.

39.7% percentile inside its fair comparison set

1,234Raw benchmark valueCI 1,203 - 1,265

Vision Arena · Ocr · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #43

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,212
Percentile: 40%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: ocr. Source rank: #55. Votes: 1357. Organization: alibaba. License: Apache 2.0.

40% percentile inside its fair comparison set

1,212Raw benchmark valueCI 1,197 - 1,228

Vision Arena · Creative Writing

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #13

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,218
Percentile: 62.5%
Last updated: archived
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: creative_writing. Source rank: #14. Votes: 219. Organization: alibaba. License: Apache 2.0.

62.5% percentile inside its fair comparison set

1,218Raw benchmark valueCI 1,179 - 1,256

Vision Arena · Creative Writing · No Style Control

AR · Vision understanding · Human

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #12

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,230
Percentile: 65.6%
Last updated: archived
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: creative_writing. Source rank: #13. Votes: 219. Organization: alibaba. License: Apache 2.0.

65.6% percentile inside its fair comparison set

1,230Raw benchmark valueCI 1,192 - 1,268

Multilingual10 benchmarks68%

Text Arena · Chinese

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #84

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,440
Percentile: 71.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: chinese. Source rank: #106. Votes: 296. Organization: alibaba. License: Apache 2.0.

71.9% percentile inside its fair comparison set

1,440Raw benchmark valueCI 1,405 - 1,475

Text Arena · German

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #57

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,419
Percentile: 76.4%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: german. Source rank: #75. Votes: 170. Organization: alibaba. License: Apache 2.0.

76.4% percentile inside its fair comparison set

1,419Raw benchmark valueCI 1,374 - 1,465

Text Arena · Korean

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #63

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,367
Percentile: 70.2%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: korean. Source rank: #80. Votes: 214. Organization: alibaba. License: Apache 2.0.

70.2% percentile inside its fair comparison set

1,367Raw benchmark valueCI 1,326 - 1,408

Text Arena · Russian

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #108

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,377
Percentile: 63%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: russian. Source rank: #131. Votes: 481. Organization: alibaba. License: Apache 2.0.

63% percentile inside its fair comparison set

1,377Raw benchmark valueCI 1,352 - 1,403

Text Arena · Spanish

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #97

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,384
Percentile: 55.1%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: spanish. Source rank: #119. Votes: 331. Organization: alibaba. License: Apache 2.0.

55.1% percentile inside its fair comparison set

1,384Raw benchmark valueCI 1,351 - 1,417

Text Arena · Chinese · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #76

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,451
Percentile: 74.6%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: chinese. Source rank: #92. Votes: 296. Organization: alibaba. License: Apache 2.0.

74.6% percentile inside its fair comparison set

1,451Raw benchmark valueCI 1,417 - 1,486

Text Arena · German · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #49

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,422
Percentile: 79.7%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: german. Source rank: #62. Votes: 170. Organization: alibaba. License: Apache 2.0.

79.7% percentile inside its fair comparison set

1,422Raw benchmark valueCI 1,377 - 1,467

Text Arena · Korean · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #63

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,367
Percentile: 70.2%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: korean. Source rank: #76. Votes: 214. Organization: alibaba. License: Apache 2.0.

70.2% percentile inside its fair comparison set

1,367Raw benchmark valueCI 1,326 - 1,407

Text Arena · Russian · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #111

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,360
Percentile: 61.9%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: russian. Source rank: #135. Votes: 481. Organization: alibaba. License: Apache 2.0.

61.9% percentile inside its fair comparison set

1,360Raw benchmark valueCI 1,334 - 1,386

Text Arena · Spanish · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #92

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,384
Percentile: 57.5%
Last updated: recent
Eligibility: benchmark_derived_model

Parsed from Arena leaderboard dataset row `qwen3-vl-235b-a22b-thinking`. Category: spanish. Source rank: #111. Votes: 331. Organization: alibaba. License: Apache 2.0.

57.5% percentile inside its fair comparison set

1,384Raw benchmark valueCI 1,351 - 1,417

Source links and registry checks

official

Arena

Jun 20, 2026

qwen3-vl-235b-a22b-thinking

Current snapshot.

Source-linked scores by benchmark

Source links and registry checks

Loading model evidence.

qwen3-vl-235b-a22b-thinking

Current snapshot.

Source-linked scores by benchmark

Source links and registry checks