Model profile · Qwen

Qwen3.5 Flash

Open weightsmid · registry tag 2026 hosted fast

Thin verified coverage

Reads as thin verified coverage across the resolved source data.

Visible coverage: 10.3%
Verified coverage: 10.3%
Spread: n/a
Last verified: Jun 20, 2026

textcode4 aliases31 official source links

Open compare

Data version

Current snapshot.

Data version Jun 20, 2026Model list checked9 providers · 1081 tracked modelsPage refreshed Jul 5, 2026

The registry snapshot and page stamp are shown so a stale deploy is visible at a glance.

Source-linked scores by benchmark

Each row keeps the benchmark source, source type, raw metric, and percentile inside its fair comparison set.

Thin verified coverageThis model currently reads as thin verified coverage across the resolved source data.

Chat / text18 benchmarks68.3%

Text Arena

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,397
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #122. Votes: 40958. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,397Raw benchmark valueCI 1,393 - 1,401

Text Arena · Creative Writing

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #122 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,341
Percentile: 62.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: creative_writing. Source rank: #147. Votes: 6117. Organization: alibaba. License: Proprietary.

62.5% percentile inside its fair comparison set

1,341Raw benchmark valueCI 1,333 - 1,350

Text Arena · English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #107 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,405
Percentile: 67.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: english. Source rank: #129. Votes: 18484. Organization: alibaba. License: Proprietary.

67.4% percentile inside its fair comparison set

1,405Raw benchmark valueCI 1,400 - 1,410

Text Arena · Exclude Ties

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,377
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: exclude_ties. Source rank: #122. Votes: 30023. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,377Raw benchmark valueCI 1,372 - 1,383

Text Arena · Hard Prompts

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #108 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,414
Percentile: 67.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts. Source rank: #130. Votes: 25999. Organization: alibaba. License: Proprietary.

67.1% percentile inside its fair comparison set

1,414Raw benchmark valueCI 1,409 - 1,418

Text Arena · Hard Prompts English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #110 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,419
Percentile: 66.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts_english. Source rank: #133. Votes: 12544. Organization: alibaba. License: Proprietary.

66.4% percentile inside its fair comparison set

1,419Raw benchmark valueCI 1,412 - 1,425

Text Arena · Instruction Following

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #110 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,379
Percentile: 66.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: instruction_following. Source rank: #135. Votes: 12965. Organization: alibaba. License: Proprietary.

66.5% percentile inside its fair comparison set

1,379Raw benchmark valueCI 1,373 - 1,385

Text Arena · Longer Query

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #105 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 65.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: longer_query. Source rank: #130. Votes: 15728. Organization: alibaba. License: Proprietary.

65.8% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,393 - 1,405

Text Arena · Multi Turn

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #102 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,395
Percentile: 68.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: multi_turn. Source rank: #125. Votes: 7169. Organization: alibaba. License: Proprietary.

68.7% percentile inside its fair comparison set

1,395Raw benchmark valueCI 1,387 - 1,403

Text Arena · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,398
Percentile: 70.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #116. Votes: 40958. Organization: alibaba. License: Proprietary.

70.5% percentile inside its fair comparison set

1,398Raw benchmark valueCI 1,394 - 1,402

Text Arena · Creative Writing · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #104 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,347
Percentile: 68.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: creative_writing. Source rank: #128. Votes: 6117. Organization: alibaba. License: Proprietary.

68.1% percentile inside its fair comparison set

1,347Raw benchmark valueCI 1,339 - 1,355

Text Arena · English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: english. Source rank: #121. Votes: 18484. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,398 - 1,408

Text Arena · Exclude Ties · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #96 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,377
Percentile: 70.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: exclude_ties. Source rank: #115. Votes: 30023. Organization: alibaba. License: Proprietary.

70.8% percentile inside its fair comparison set

1,377Raw benchmark valueCI 1,372 - 1,383

Text Arena · Hard Prompts · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,402
Percentile: 70.2%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts. Source rank: #119. Votes: 25999. Organization: alibaba. License: Proprietary.

70.2% percentile inside its fair comparison set

1,402Raw benchmark valueCI 1,397 - 1,407

Text Arena · Hard Prompts English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,405
Percentile: 69.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts_english. Source rank: #120. Votes: 12544. Organization: alibaba. License: Proprietary.

69.4% percentile inside its fair comparison set

1,405Raw benchmark valueCI 1,399 - 1,412

Text Arena · Instruction Following · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,372
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: instruction_following. Source rank: #123. Votes: 12965. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,372Raw benchmark valueCI 1,365 - 1,378

Text Arena · Longer Query · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,391
Percentile: 68.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: longer_query. Source rank: #120. Votes: 15728. Organization: alibaba. License: Proprietary.

68.1% percentile inside its fair comparison set

1,391Raw benchmark valueCI 1,385 - 1,397

Text Arena · Multi Turn · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,392
Percentile: 70.3%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: multi_turn. Source rank: #118. Votes: 7169. Organization: alibaba. License: Proprietary.

70.3% percentile inside its fair comparison set

1,392Raw benchmark valueCI 1,384 - 1,399

Coding8 benchmarks34.6%

Code Arena

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #64 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,238
Percentile: 13.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #80. Votes: 1563. Organization: alibaba. License: Proprietary.

13.7% percentile inside its fair comparison set

1,238Raw benchmark valueCI 1,221 - 1,255

WebDev Arena

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #64 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,238
Percentile: 13.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev. Source rank: #80. Votes: 1563. Organization: alibaba. License: Proprietary.

13.7% percentile inside its fair comparison set

1,238Raw benchmark valueCI 1,221 - 1,255

Code Arena · Webdev Html

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #57 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,308
Percentile: 23.3%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev-html. Source rank: #70. Votes: 197. Organization: alibaba. License: Proprietary.

23.3% percentile inside its fair comparison set

1,308Raw benchmark valueCI 1,265 - 1,352

Code Arena · Webdev React

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #57 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,219
Percentile: 5.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev-react. Source rank: #71. Votes: 1366. Organization: alibaba. License: Proprietary.

5.1% percentile inside its fair comparison set

1,219Raw benchmark valueCI 1,200 - 1,237

LiveCodeBench

VALS-AI · Coding · Objective

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #28 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 83.3%
Percentile: 70%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: lcb; provider: Alibaba.

70% percentile inside its fair comparison set

83.3%Raw benchmark valueCI 81.2% - 85.3%

SWE-bench Verified

VALS-AI · Coding · Objective

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #45 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 64.4%
Percentile: 18.5%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: swebench; provider: Alibaba.

18.5% percentile inside its fair comparison set

64.4%Raw benchmark valueCI 60.2% - 68.6%

Text Arena · Coding

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #117 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,432
Percentile: 63.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: coding. Source rank: #139. Votes: 11611. Organization: alibaba. License: Proprietary.

63.7% percentile inside its fair comparison set

1,432Raw benchmark valueCI 1,426 - 1,438

Text Arena · Coding · No Style Control

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 69.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: coding. Source rank: #119. Votes: 11611. Organization: alibaba. License: Proprietary.

69.1% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,402 - 1,415

Reasoning / math / science4 benchmarks64.6%

GPQA Diamond

VALS-AI · Reasoning / math / science · Objective

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #37 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 82.8%
Percentile: 59.6%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: gpqa; provider: Alibaba.

59.6% percentile inside its fair comparison set

82.8%Raw benchmark valueCI 79.1% - 86.5%

MMLU Pro

VALS-AI · Reasoning / math / science · Objective

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #41 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 84.1%
Percentile: 55.1%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mmlu_pro; provider: Alibaba.

55.1% percentile inside its fair comparison set

84.1%Raw benchmark valueCI 83.4% - 84.8%

Text Arena · Math

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 71%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: math. Source rank: #115. Votes: 2404. Organization: alibaba. License: Proprietary.

71% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,390 - 1,415

Text Arena · Math · No Style Control

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #86 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 72.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: math. Source rank: #104. Votes: 2404. Organization: alibaba. License: Proprietary.

72.9% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,395 - 1,420

Professional reasoning23 benchmarks62.6%

LegalBench

VALS-AI · Professional reasoning · Objective

Academic legal reasoning tasks.

Rank #19 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 84.3%
Percentile: 80%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: legal_bench; provider: Alibaba.

80% percentile inside its fair comparison set

84.3%Raw benchmark valueCI 83.5% - 85.1%

TaxEval v2

VALS-AI · Professional reasoning · Objective

Answer quality on tax questions and responses.

Rank #45 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 72.2%
Percentile: 51.6%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: tax_eval_v2; provider: Alibaba.

51.6% percentile inside its fair comparison set

72.2%Raw benchmark valueCI 70.4% - 73.9%

MedCode

VALS-AI · Professional reasoning · Objective

Medical billing support and coding tasks.

Rank #44 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 33%
Percentile: 15.7%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: medcode; provider: Alibaba.

15.7% percentile inside its fair comparison set

33%Raw benchmark valueCI 29.5% - 36.5%

MedScribe

VALS-AI · Professional reasoning · Objective

Administrative documentation support for doctors.

Rank #44 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 70.6%
Percentile: 14%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: medscribe; provider: Alibaba.

14% percentile inside its fair comparison set

70.6%Raw benchmark valueCI 66.5% - 74.7%

Text Arena · Expert

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #95 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,418
Percentile: 65.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: expert. Source rank: #116. Votes: 3487. Organization: alibaba. License: Proprietary.

65.8% percentile inside its fair comparison set

1,418Raw benchmark valueCI 1,408 - 1,429

Text Arena · Industry Business And Management And Financial Operations

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 71.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_business_and_management_and_financial_operations. Source rank: #111. Votes: 8004. Organization: alibaba. License: Proprietary.

71.4% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,396 - 1,411

Text Arena · Industry Entertainment And Sports And Media

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #117 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,345
Percentile: 64.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_entertainment_and_sports_and_media. Source rank: #144. Votes: 7911. Organization: alibaba. License: Proprietary.

64.1% percentile inside its fair comparison set

1,345Raw benchmark valueCI 1,337 - 1,352

Text Arena · Industry Legal And Government

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 64.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_legal_and_government. Source rank: #129. Votes: 3024. Organization: alibaba. License: Proprietary.

64.8% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,387 - 1,410

Text Arena · Industry Life And Physical And Social Science

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #91 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,420
Percentile: 72.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_life_and_physical_and_social_science. Source rank: #113. Votes: 6394. Organization: alibaba. License: Proprietary.

72.1% percentile inside its fair comparison set

1,420Raw benchmark valueCI 1,412 - 1,428

Text Arena · Industry Mathematical

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 68.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_mathematical. Source rank: #118. Votes: 2142. Organization: alibaba. License: Proprietary.

68.8% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,395 - 1,422

Text Arena · Industry Medicine And Healthcare

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #108 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,410
Percentile: 63.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_medicine_and_healthcare. Source rank: #131. Votes: 2811. Organization: alibaba. License: Proprietary.

63.7% percentile inside its fair comparison set

1,410Raw benchmark valueCI 1,399 - 1,422

Text Arena · Industry Software And It Services

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,427
Percentile: 67.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_software_and_it_services. Source rank: #126. Votes: 16469. Organization: alibaba. License: Proprietary.

67.7% percentile inside its fair comparison set

1,427Raw benchmark valueCI 1,422 - 1,433

Text Arena · Industry Writing And Literature And Language

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,369
Percentile: 67.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_writing_and_literature_and_language. Source rank: #131. Votes: 9349. Organization: alibaba. License: Proprietary.

67.6% percentile inside its fair comparison set

1,369Raw benchmark valueCI 1,362 - 1,376

Text Arena · Expert · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #86 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 69.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: expert. Source rank: #104. Votes: 3487. Organization: alibaba. License: Proprietary.

69.1% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,396 - 1,417

Text Arena · Industry Business And Management And Financial Operations · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #85 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,396
Percentile: 73.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_business_and_management_and_financial_operations. Source rank: #102. Votes: 8004. Organization: alibaba. License: Proprietary.

73.6% percentile inside its fair comparison set

1,396Raw benchmark valueCI 1,389 - 1,403

Text Arena · Industry Entertainment And Sports And Media · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #105 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,348
Percentile: 67.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_entertainment_and_sports_and_media. Source rank: #128. Votes: 7911. Organization: alibaba. License: Proprietary.

67.8% percentile inside its fair comparison set

1,348Raw benchmark valueCI 1,340 - 1,355

Text Arena · Industry Legal And Government · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 67.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_legal_and_government. Source rank: #119. Votes: 3024. Organization: alibaba. License: Proprietary.

67.4% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,388 - 1,410

Text Arena · Industry Life And Physical And Social Science · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #93 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,417
Percentile: 71.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_life_and_physical_and_social_science. Source rank: #109. Votes: 6394. Organization: alibaba. License: Proprietary.

71.5% percentile inside its fair comparison set

1,417Raw benchmark valueCI 1,409 - 1,425

Text Arena · Industry Mathematical · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #91 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 70.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_mathematical. Source rank: #108. Votes: 2142. Organization: alibaba. License: Proprietary.

70.8% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,396 - 1,423

Text Arena · Industry Medicine And Healthcare · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,406
Percentile: 67.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_medicine_and_healthcare. Source rank: #118. Votes: 2811. Organization: alibaba. License: Proprietary.

67.5% percentile inside its fair comparison set

1,406Raw benchmark valueCI 1,394 - 1,418

Text Arena · Industry Software And It Services · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,414
Percentile: 70.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_software_and_it_services. Source rank: #115. Votes: 16469. Organization: alibaba. License: Proprietary.

70.5% percentile inside its fair comparison set

1,414Raw benchmark valueCI 1,408 - 1,419

Text Arena · Industry Writing And Literature And Language · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,370
Percentile: 70.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_writing_and_literature_and_language. Source rank: #120. Votes: 9349. Organization: alibaba. License: Proprietary.

70.1% percentile inside its fair comparison set

1,370Raw benchmark valueCI 1,363 - 1,377

SAGE

VALS-AI · Professional reasoning · Objective

Student Assessment with Generative Evaluation.

Rank #26 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 42.5%
Percentile: 44.4%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: sage; provider: Alibaba.

44.4% percentile inside its fair comparison set

42.5%Raw benchmark valueCI 35.7% - 49.3%

Long context1 benchmark65.9%

CorpFin v2

VALS-AI · Long context · Objective

It checks whether long-context claims survive contact with retrieval, memory, or long-document tasks.

Rank #31 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 63.6%
Percentile: 65.9%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: corp_fin_v2; provider: Alibaba.

65.9% percentile inside its fair comparison set

63.6%Raw benchmark valueCI 61.7% - 65.4%

Vision understanding1 benchmark63.8%

MMMU Pro

VALS-AI · Vision understanding · Objective

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #22 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 81.9%
Percentile: 63.8%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mmmu; provider: Alibaba.

63.8% percentile inside its fair comparison set

81.9%Raw benchmark valueCI 80.1% - 83.7%

Document understanding1 benchmark70%

MortgageTax

VALS-AI · Document understanding · Objective

It matters when the job is reading PDFs, tables, forms, or mixed-layout documents rather than plain chat.

Rank #19 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 67.4%
Percentile: 70%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mortgage_tax; provider: Alibaba.

70% percentile inside its fair comparison set

67.4%Raw benchmark valueCI 65.6% - 69.2%

Multilingual14 benchmarks65.1%

Text Arena · Chinese

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,449
Percentile: 73.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: chinese. Source rank: #97. Votes: 1982. Organization: alibaba. License: Proprietary.

73.6% percentile inside its fair comparison set

1,449Raw benchmark valueCI 1,435 - 1,463

Text Arena · French

AR · Multilingual · Human

Observed user preference in Arena's Text Arena french leaderboard.

Rank #96 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,411
Percentile: 56%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: french. Source rank: #116. Votes: 1414. Organization: alibaba. License: Proprietary.

56% percentile inside its fair comparison set

1,411Raw benchmark valueCI 1,392 - 1,429

Text Arena · German

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,382
Percentile: 61.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: german. Source rank: #112. Votes: 709. Organization: alibaba. License: Proprietary.

61.6% percentile inside its fair comparison set

1,382Raw benchmark valueCI 1,359 - 1,404

Text Arena · Japanese

AR · Multilingual · Human

Observed user preference in Arena's Text Arena japanese leaderboard.

Rank #63 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,368
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: japanese. Source rank: #82. Votes: 348. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,368Raw benchmark valueCI 1,334 - 1,402

Text Arena · Korean

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #93 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,341
Percentile: 55.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: korean. Source rank: #114. Votes: 697. Organization: alibaba. License: Proprietary.

55.8% percentile inside its fair comparison set

1,341Raw benchmark valueCI 1,317 - 1,365

Text Arena · Russian

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #103 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,384
Percentile: 64.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: russian. Source rank: #126. Votes: 4634. Organization: alibaba. License: Proprietary.

64.7% percentile inside its fair comparison set

1,384Raw benchmark valueCI 1,374 - 1,393

Text Arena · Spanish

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,401
Percentile: 63.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: spanish. Source rank: #98. Votes: 1317. Organization: alibaba. License: Proprietary.

63.6% percentile inside its fair comparison set

1,401Raw benchmark valueCI 1,383 - 1,419

Text Arena · Chinese · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #70 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,455
Percentile: 76.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: chinese. Source rank: #82. Votes: 1982. Organization: alibaba. License: Proprietary.

76.6% percentile inside its fair comparison set

1,455Raw benchmark valueCI 1,441 - 1,469

Text Arena · French · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena french leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 57.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: french. Source rank: #110. Votes: 1414. Organization: alibaba. License: Proprietary.

57.9% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,385 - 1,421

Text Arena · German · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,390
Percentile: 67.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: german. Source rank: #96. Votes: 709. Organization: alibaba. License: Proprietary.

67.1% percentile inside its fair comparison set

1,390Raw benchmark valueCI 1,367 - 1,412

Text Arena · Japanese · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena japanese leaderboard.

Rank #54 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,374
Percentile: 73.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: japanese. Source rank: #69. Votes: 348. Organization: alibaba. License: Proprietary.

73.9% percentile inside its fair comparison set

1,374Raw benchmark valueCI 1,340 - 1,408

Text Arena · Korean · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #82 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,352
Percentile: 61.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: korean. Source rank: #99. Votes: 697. Organization: alibaba. License: Proprietary.

61.1% percentile inside its fair comparison set

1,352Raw benchmark valueCI 1,328 - 1,376

Text Arena · Russian · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,383
Percentile: 66.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: russian. Source rank: #117. Votes: 4634. Organization: alibaba. License: Proprietary.

66.8% percentile inside its fair comparison set

1,383Raw benchmark valueCI 1,374 - 1,392

Text Arena · Spanish · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #78 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,408
Percentile: 64%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: spanish. Source rank: #93. Votes: 1317. Organization: alibaba. License: Proprietary.

64% percentile inside its fair comparison set

1,408Raw benchmark valueCI 1,390 - 1,426

Source links and registry checks

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

official

Arena

Jun 20, 2026

source →

Model profile · Qwen

Qwen3.5 Flash

Open weightsmid · registry tag 2026 hosted fast

Thin verified coverage

Reads as thin verified coverage across the resolved source data.

Visible coverage: 10.3%
Verified coverage: 10.3%
Spread: n/a
Last verified: Jun 20, 2026

textcode4 aliases31 official source links

Open compare

Data version

Current snapshot.

Data version Jun 20, 2026Model list checked9 providers · 1081 tracked modelsPage refreshed Jul 5, 2026

The registry snapshot and page stamp are shown so a stale deploy is visible at a glance.

Source-linked scores by benchmark

Each row keeps the benchmark source, source type, raw metric, and percentile inside its fair comparison set.

Thin verified coverageThis model currently reads as thin verified coverage across the resolved source data.

Chat / text18 benchmarks68.3%

Text Arena

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,397
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #122. Votes: 40958. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,397Raw benchmark valueCI 1,393 - 1,401

Text Arena · Creative Writing

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #122 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,341
Percentile: 62.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: creative_writing. Source rank: #147. Votes: 6117. Organization: alibaba. License: Proprietary.

62.5% percentile inside its fair comparison set

1,341Raw benchmark valueCI 1,333 - 1,350

Text Arena · English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #107 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,405
Percentile: 67.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: english. Source rank: #129. Votes: 18484. Organization: alibaba. License: Proprietary.

67.4% percentile inside its fair comparison set

1,405Raw benchmark valueCI 1,400 - 1,410

Text Arena · Exclude Ties

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,377
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: exclude_ties. Source rank: #122. Votes: 30023. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,377Raw benchmark valueCI 1,372 - 1,383

Text Arena · Hard Prompts

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #108 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,414
Percentile: 67.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts. Source rank: #130. Votes: 25999. Organization: alibaba. License: Proprietary.

67.1% percentile inside its fair comparison set

1,414Raw benchmark valueCI 1,409 - 1,418

Text Arena · Hard Prompts English

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #110 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,419
Percentile: 66.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts_english. Source rank: #133. Votes: 12544. Organization: alibaba. License: Proprietary.

66.4% percentile inside its fair comparison set

1,419Raw benchmark valueCI 1,412 - 1,425

Text Arena · Instruction Following

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #110 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,379
Percentile: 66.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: instruction_following. Source rank: #135. Votes: 12965. Organization: alibaba. License: Proprietary.

66.5% percentile inside its fair comparison set

1,379Raw benchmark valueCI 1,373 - 1,385

Text Arena · Longer Query

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #105 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 65.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: longer_query. Source rank: #130. Votes: 15728. Organization: alibaba. License: Proprietary.

65.8% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,393 - 1,405

Text Arena · Multi Turn

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #102 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,395
Percentile: 68.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: multi_turn. Source rank: #125. Votes: 7169. Organization: alibaba. License: Proprietary.

68.7% percentile inside its fair comparison set

1,395Raw benchmark valueCI 1,387 - 1,403

Text Arena · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,398
Percentile: 70.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #116. Votes: 40958. Organization: alibaba. License: Proprietary.

70.5% percentile inside its fair comparison set

1,398Raw benchmark valueCI 1,394 - 1,402

Text Arena · Creative Writing · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #104 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,347
Percentile: 68.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: creative_writing. Source rank: #128. Votes: 6117. Organization: alibaba. License: Proprietary.

68.1% percentile inside its fair comparison set

1,347Raw benchmark valueCI 1,339 - 1,355

Text Arena · English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: english. Source rank: #121. Votes: 18484. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,398 - 1,408

Text Arena · Exclude Ties · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #96 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,377
Percentile: 70.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: exclude_ties. Source rank: #115. Votes: 30023. Organization: alibaba. License: Proprietary.

70.8% percentile inside its fair comparison set

1,377Raw benchmark valueCI 1,372 - 1,383

Text Arena · Hard Prompts · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,402
Percentile: 70.2%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts. Source rank: #119. Votes: 25999. Organization: alibaba. License: Proprietary.

70.2% percentile inside its fair comparison set

1,402Raw benchmark valueCI 1,397 - 1,407

Text Arena · Hard Prompts English · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,405
Percentile: 69.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: hard_prompts_english. Source rank: #120. Votes: 12544. Organization: alibaba. License: Proprietary.

69.4% percentile inside its fair comparison set

1,405Raw benchmark valueCI 1,399 - 1,412

Text Arena · Instruction Following · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,372
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: instruction_following. Source rank: #123. Votes: 12965. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,372Raw benchmark valueCI 1,365 - 1,378

Text Arena · Longer Query · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,391
Percentile: 68.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: longer_query. Source rank: #120. Votes: 15728. Organization: alibaba. License: Proprietary.

68.1% percentile inside its fair comparison set

1,391Raw benchmark valueCI 1,385 - 1,397

Text Arena · Multi Turn · No Style Control

AR · Chat / text · Human

It tests whether the model is actually useful in normal conversational turns, not just on narrow correctness tasks.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,392
Percentile: 70.3%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: multi_turn. Source rank: #118. Votes: 7169. Organization: alibaba. License: Proprietary.

70.3% percentile inside its fair comparison set

1,392Raw benchmark valueCI 1,384 - 1,399

Coding8 benchmarks34.6%

Code Arena

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #64 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,238
Percentile: 13.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: overall. Source rank: #80. Votes: 1563. Organization: alibaba. License: Proprietary.

13.7% percentile inside its fair comparison set

1,238Raw benchmark valueCI 1,221 - 1,255

WebDev Arena

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #64 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,238
Percentile: 13.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev. Source rank: #80. Votes: 1563. Organization: alibaba. License: Proprietary.

13.7% percentile inside its fair comparison set

1,238Raw benchmark valueCI 1,221 - 1,255

Code Arena · Webdev Html

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #57 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,308
Percentile: 23.3%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev-html. Source rank: #70. Votes: 197. Organization: alibaba. License: Proprietary.

23.3% percentile inside its fair comparison set

1,308Raw benchmark valueCI 1,265 - 1,352

Code Arena · Webdev React

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #57 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,219
Percentile: 5.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: webdev-react. Source rank: #71. Votes: 1366. Organization: alibaba. License: Proprietary.

5.1% percentile inside its fair comparison set

1,219Raw benchmark valueCI 1,200 - 1,237

LiveCodeBench

VALS-AI · Coding · Objective

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #28 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 83.3%
Percentile: 70%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: lcb; provider: Alibaba.

70% percentile inside its fair comparison set

83.3%Raw benchmark valueCI 81.2% - 85.3%

SWE-bench Verified

VALS-AI · Coding · Objective

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #45 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 64.4%
Percentile: 18.5%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: swebench; provider: Alibaba.

18.5% percentile inside its fair comparison set

64.4%Raw benchmark valueCI 60.2% - 68.6%

Text Arena · Coding

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #117 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,432
Percentile: 63.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: coding. Source rank: #139. Votes: 11611. Organization: alibaba. License: Proprietary.

63.7% percentile inside its fair comparison set

1,432Raw benchmark valueCI 1,426 - 1,438

Text Arena · Coding · No Style Control

AR · Coding · Human

It tells you whether the model can generate, repair, and reason over code under evaluator pressure rather than marketing examples.

Rank #100 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 69.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: coding. Source rank: #119. Votes: 11611. Organization: alibaba. License: Proprietary.

69.1% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,402 - 1,415

Reasoning / math / science4 benchmarks64.6%

GPQA Diamond

VALS-AI · Reasoning / math / science · Objective

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #37 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 82.8%
Percentile: 59.6%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: gpqa; provider: Alibaba.

59.6% percentile inside its fair comparison set

82.8%Raw benchmark valueCI 79.1% - 86.5%

MMLU Pro

VALS-AI · Reasoning / math / science · Objective

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #41 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 84.1%
Percentile: 55.1%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mmlu_pro; provider: Alibaba.

55.1% percentile inside its fair comparison set

84.1%Raw benchmark valueCI 83.4% - 84.8%

Text Arena · Math

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 71%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: math. Source rank: #115. Votes: 2404. Organization: alibaba. License: Proprietary.

71% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,390 - 1,415

Text Arena · Math · No Style Control

AR · Reasoning / math / science · Human

It is one of the cleaner reads on deliberate reasoning strength rather than style or popularity.

Rank #86 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 72.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: math. Source rank: #104. Votes: 2404. Organization: alibaba. License: Proprietary.

72.9% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,395 - 1,420

Professional reasoning23 benchmarks62.6%

LegalBench

VALS-AI · Professional reasoning · Objective

Academic legal reasoning tasks.

Rank #19 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 84.3%
Percentile: 80%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: legal_bench; provider: Alibaba.

80% percentile inside its fair comparison set

84.3%Raw benchmark valueCI 83.5% - 85.1%

TaxEval v2

VALS-AI · Professional reasoning · Objective

Answer quality on tax questions and responses.

Rank #45 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 72.2%
Percentile: 51.6%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: tax_eval_v2; provider: Alibaba.

51.6% percentile inside its fair comparison set

72.2%Raw benchmark valueCI 70.4% - 73.9%

MedCode

VALS-AI · Professional reasoning · Objective

Medical billing support and coding tasks.

Rank #44 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 33%
Percentile: 15.7%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: medcode; provider: Alibaba.

15.7% percentile inside its fair comparison set

33%Raw benchmark valueCI 29.5% - 36.5%

MedScribe

VALS-AI · Professional reasoning · Objective

Administrative documentation support for doctors.

Rank #44 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 70.6%
Percentile: 14%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: medscribe; provider: Alibaba.

14% percentile inside its fair comparison set

70.6%Raw benchmark valueCI 66.5% - 74.7%

Text Arena · Expert

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #95 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,418
Percentile: 65.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: expert. Source rank: #116. Votes: 3487. Organization: alibaba. License: Proprietary.

65.8% percentile inside its fair comparison set

1,418Raw benchmark valueCI 1,408 - 1,429

Text Arena · Industry Business And Management And Financial Operations

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 71.4%
Last updated: recent
Eligibility: preview_model

71.4% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,396 - 1,411

Text Arena · Industry Entertainment And Sports And Media

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #117 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,345
Percentile: 64.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_entertainment_and_sports_and_media. Source rank: #144. Votes: 7911. Organization: alibaba. License: Proprietary.

64.1% percentile inside its fair comparison set

1,345Raw benchmark valueCI 1,337 - 1,352

Text Arena · Industry Legal And Government

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 64.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_legal_and_government. Source rank: #129. Votes: 3024. Organization: alibaba. License: Proprietary.

64.8% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,387 - 1,410

Text Arena · Industry Life And Physical And Social Science

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #91 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,420
Percentile: 72.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_life_and_physical_and_social_science. Source rank: #113. Votes: 6394. Organization: alibaba. License: Proprietary.

72.1% percentile inside its fair comparison set

1,420Raw benchmark valueCI 1,412 - 1,428

Text Arena · Industry Mathematical

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 68.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_mathematical. Source rank: #118. Votes: 2142. Organization: alibaba. License: Proprietary.

68.8% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,395 - 1,422

Text Arena · Industry Medicine And Healthcare

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #108 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,410
Percentile: 63.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_medicine_and_healthcare. Source rank: #131. Votes: 2811. Organization: alibaba. License: Proprietary.

63.7% percentile inside its fair comparison set

1,410Raw benchmark valueCI 1,399 - 1,422

Text Arena · Industry Software And It Services

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,427
Percentile: 67.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_software_and_it_services. Source rank: #126. Votes: 16469. Organization: alibaba. License: Proprietary.

67.7% percentile inside its fair comparison set

1,427Raw benchmark valueCI 1,422 - 1,433

Text Arena · Industry Writing And Literature And Language

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #106 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,369
Percentile: 67.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_writing_and_literature_and_language. Source rank: #131. Votes: 9349. Organization: alibaba. License: Proprietary.

67.6% percentile inside its fair comparison set

1,369Raw benchmark valueCI 1,362 - 1,376

Text Arena · Expert · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena expert leaderboard.

Rank #86 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,407
Percentile: 69.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: expert. Source rank: #104. Votes: 3487. Organization: alibaba. License: Proprietary.

69.1% percentile inside its fair comparison set

1,407Raw benchmark valueCI 1,396 - 1,417

Text Arena · Industry Business And Management And Financial Operations · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_business_and_management_and_financial_operations leaderboard.

Rank #85 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,396
Percentile: 73.6%
Last updated: recent
Eligibility: preview_model

73.6% percentile inside its fair comparison set

1,396Raw benchmark valueCI 1,389 - 1,403

Text Arena · Industry Entertainment And Sports And Media · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_entertainment_and_sports_and_media leaderboard.

Rank #105 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,348
Percentile: 67.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_entertainment_and_sports_and_media. Source rank: #128. Votes: 7911. Organization: alibaba. License: Proprietary.

67.8% percentile inside its fair comparison set

1,348Raw benchmark valueCI 1,340 - 1,355

Text Arena · Industry Legal And Government · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_legal_and_government leaderboard.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,399
Percentile: 67.4%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_legal_and_government. Source rank: #119. Votes: 3024. Organization: alibaba. License: Proprietary.

67.4% percentile inside its fair comparison set

1,399Raw benchmark valueCI 1,388 - 1,410

Text Arena · Industry Life And Physical And Social Science · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_life_and_physical_and_social_science leaderboard.

Rank #93 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,417
Percentile: 71.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_life_and_physical_and_social_science. Source rank: #109. Votes: 6394. Organization: alibaba. License: Proprietary.

71.5% percentile inside its fair comparison set

1,417Raw benchmark valueCI 1,409 - 1,425

Text Arena · Industry Mathematical · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_mathematical leaderboard.

Rank #91 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,409
Percentile: 70.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_mathematical. Source rank: #108. Votes: 2142. Organization: alibaba. License: Proprietary.

70.8% percentile inside its fair comparison set

1,409Raw benchmark valueCI 1,396 - 1,423

Text Arena · Industry Medicine And Healthcare · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_medicine_and_healthcare leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,406
Percentile: 67.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_medicine_and_healthcare. Source rank: #118. Votes: 2811. Organization: alibaba. License: Proprietary.

67.5% percentile inside its fair comparison set

1,406Raw benchmark valueCI 1,394 - 1,418

Text Arena · Industry Software And It Services · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_software_and_it_services leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,414
Percentile: 70.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_software_and_it_services. Source rank: #115. Votes: 16469. Organization: alibaba. License: Proprietary.

70.5% percentile inside its fair comparison set

1,414Raw benchmark valueCI 1,408 - 1,419

Text Arena · Industry Writing And Literature And Language · No Style Control

AR · Professional reasoning · Human

Observed user preference in Arena's Text Arena industry_writing_and_literature_and_language leaderboard.

Rank #98 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,370
Percentile: 70.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: industry_writing_and_literature_and_language. Source rank: #120. Votes: 9349. Organization: alibaba. License: Proprietary.

70.1% percentile inside its fair comparison set

1,370Raw benchmark valueCI 1,363 - 1,377

SAGE

VALS-AI · Professional reasoning · Objective

Student Assessment with Generative Evaluation.

Rank #26 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 42.5%
Percentile: 44.4%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: sage; provider: Alibaba.

44.4% percentile inside its fair comparison set

42.5%Raw benchmark valueCI 35.7% - 49.3%

Long context1 benchmark65.9%

CorpFin v2

VALS-AI · Long context · Objective

It checks whether long-context claims survive contact with retrieval, memory, or long-document tasks.

Rank #31 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 63.6%
Percentile: 65.9%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: corp_fin_v2; provider: Alibaba.

65.9% percentile inside its fair comparison set

63.6%Raw benchmark valueCI 61.7% - 65.4%

Vision understanding1 benchmark63.8%

MMMU Pro

VALS-AI · Vision understanding · Objective

It is useful when the model must read charts, UI, screenshots, or visual scenes rather than text alone.

Rank #22 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 81.9%
Percentile: 63.8%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mmmu; provider: Alibaba.

63.8% percentile inside its fair comparison set

81.9%Raw benchmark valueCI 80.1% - 83.7%

Document understanding1 benchmark70%

MortgageTax

VALS-AI · Document understanding · Objective

It matters when the job is reading PDFs, tables, forms, or mixed-layout documents rather than plain chat.

Rank #19 · Source label: alibaba/qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Vals AI
Raw value: 67.4%
Percentile: 70%
Last updated: recent
Eligibility: preview_model

Parsed from Vals AI BenchmarkView overall scores. Vals slug: mortgage_tax; provider: Alibaba.

70% percentile inside its fair comparison set

67.4%Raw benchmark valueCI 65.6% - 69.2%

Multilingual14 benchmarks65.1%

Text Arena · Chinese

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,449
Percentile: 73.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: chinese. Source rank: #97. Votes: 1982. Organization: alibaba. License: Proprietary.

73.6% percentile inside its fair comparison set

1,449Raw benchmark valueCI 1,435 - 1,463

Text Arena · French

AR · Multilingual · Human

Observed user preference in Arena's Text Arena french leaderboard.

Rank #96 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,411
Percentile: 56%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: french. Source rank: #116. Votes: 1414. Organization: alibaba. License: Proprietary.

56% percentile inside its fair comparison set

1,411Raw benchmark valueCI 1,392 - 1,429

Text Arena · German

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,382
Percentile: 61.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: german. Source rank: #112. Votes: 709. Organization: alibaba. License: Proprietary.

61.6% percentile inside its fair comparison set

1,382Raw benchmark valueCI 1,359 - 1,404

Text Arena · Japanese

AR · Multilingual · Human

Observed user preference in Arena's Text Arena japanese leaderboard.

Rank #63 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,368
Percentile: 69.5%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: japanese. Source rank: #82. Votes: 348. Organization: alibaba. License: Proprietary.

69.5% percentile inside its fair comparison set

1,368Raw benchmark valueCI 1,334 - 1,402

Text Arena · Korean

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #93 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,341
Percentile: 55.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: korean. Source rank: #114. Votes: 697. Organization: alibaba. License: Proprietary.

55.8% percentile inside its fair comparison set

1,341Raw benchmark valueCI 1,317 - 1,365

Text Arena · Russian

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #103 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,384
Percentile: 64.7%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: russian. Source rank: #126. Votes: 4634. Organization: alibaba. License: Proprietary.

64.7% percentile inside its fair comparison set

1,384Raw benchmark valueCI 1,374 - 1,393

Text Arena · Spanish

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,401
Percentile: 63.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: spanish. Source rank: #98. Votes: 1317. Organization: alibaba. License: Proprietary.

63.6% percentile inside its fair comparison set

1,401Raw benchmark valueCI 1,383 - 1,419

Text Arena · Chinese · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena chinese leaderboard.

Rank #70 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,455
Percentile: 76.6%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: chinese. Source rank: #82. Votes: 1982. Organization: alibaba. License: Proprietary.

76.6% percentile inside its fair comparison set

1,455Raw benchmark valueCI 1,441 - 1,469

Text Arena · French · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena french leaderboard.

Rank #92 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,403
Percentile: 57.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: french. Source rank: #110. Votes: 1414. Organization: alibaba. License: Proprietary.

57.9% percentile inside its fair comparison set

1,403Raw benchmark valueCI 1,385 - 1,421

Text Arena · German · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena german leaderboard.

Rank #79 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,390
Percentile: 67.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: german. Source rank: #96. Votes: 709. Organization: alibaba. License: Proprietary.

67.1% percentile inside its fair comparison set

1,390Raw benchmark valueCI 1,367 - 1,412

Text Arena · Japanese · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena japanese leaderboard.

Rank #54 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,374
Percentile: 73.9%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: japanese. Source rank: #69. Votes: 348. Organization: alibaba. License: Proprietary.

73.9% percentile inside its fair comparison set

1,374Raw benchmark valueCI 1,340 - 1,408

Text Arena · Korean · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena korean leaderboard.

Rank #82 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,352
Percentile: 61.1%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: korean. Source rank: #99. Votes: 697. Organization: alibaba. License: Proprietary.

61.1% percentile inside its fair comparison set

1,352Raw benchmark valueCI 1,328 - 1,376

Text Arena · Russian · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena russian leaderboard.

Rank #97 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,383
Percentile: 66.8%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: russian. Source rank: #117. Votes: 4634. Organization: alibaba. License: Proprietary.

66.8% percentile inside its fair comparison set

1,383Raw benchmark valueCI 1,374 - 1,392

Text Arena · Spanish · No Style Control

AR · Multilingual · Human

Observed user preference in Arena's Text Arena spanish leaderboard.

Rank #78 · Source label: qwen3.5-flash

verified runtimeexact aliasBackground only

Raw row drilldownsource row, percentile, last updated, eligibility

Source: Arena
Raw value: 1,408
Percentile: 64%
Last updated: recent
Eligibility: preview_model

Parsed from Arena leaderboard dataset row `qwen3.5-flash`. Category: spanish. Source rank: #93. Votes: 1317. Organization: alibaba. License: Proprietary.

64% percentile inside its fair comparison set

1,408Raw benchmark valueCI 1,390 - 1,426