Benchmarks · ModelDex

GLM-5.2Z.ai (Zhipu AI)

3,206 rating

3,052 rating

92.30 points

GLM-5.1Z.ai (Zhipu AI)

GLM-4.7Z.ai (Zhipu AI)

77.50 accuracy %

83 accuracy %

88.70 accuracy %

57.30 accuracy %

70.30 accuracy %

41.80 accuracy %

79.20 win rate %

70.90 accuracy %

55.40 accuracy %

75.40 accuracy %

51.80 accuracy %

79.40 accuracy %

93.10 accuracy %

77.50 accuracy %

87.90 accuracy %

50.20 accuracy %

54.30 accuracy %

62.60 accuracy %

74.60 accuracy %

95 accuracy %

75.10 % avg@8

65.80 % pass@1 (single attempt, agentic)

49.50 % avg@64

47.30 % pass@1 (single attempt, agentic)

53.70 % pass@1

76.50 % accuracy

27.10 % pass@1

69.80 accuracy (0-shot)

80.50 macro_avg/acc (0-shot)

43.40 pass@1 (0-shot, 10/01/2024-02/01/2025)

90 relaxed_accuracy (0-shot)

94.40 anls (0-shot)

73.70 accuracy (0-shot)

92.30 average/em (0-shot)

73.40 accuracy (0-shot)

59.60 accuracy (0-shot, avg of Standard and Vision)

57.20 accuracy (0-shot)

74.30 macro_avg/acc (0-shot)

32.80 pass@1 (0-shot, 10/01/2024-02/01/2025)

88.80 relaxed_accuracy (0-shot)

94.40 anls (0-shot)

70.70 accuracy (0-shot)

90.60 average/em (0-shot)

69.40 accuracy (0-shot)

52.20 accuracy (0-shot)

50.30 em_maj1@1 (4-shot)

79.60 macro_avg/acc_char (5-shot)

58.20 macro_avg/em (5-shot)

92.10 accuracy

77.30 overall_ast_summary/macro_avg/valid

50.50 accuracy

88.40 pass@1

77 sympy_intersection_score

87.60 pass@1

91.10 exact_match

86 macro_avg/acc

68.90 macro_avg/acc

GLM-4.6Z.ai (Zhipu AI)

48.60 % win rate

77.60 % resolved

#
1	Gemini 3.1 ProGoogle	94.30% (column leader)	80.60%	—	—	44.70%	—	51.40%	54.20%	80.50%	—	—	—	—	—	77.10% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
2	Claude Opus 4.7Anthropic	94.20%	87.60%	—	—	—	—	54.70%	64.30%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
3	Claude Opus 4.8Anthropic	93.60%	88.60% (column leader)	—	—	45.70% (column leader)	—	57.90% (column leader)	69.20% (column leader)	—	—	—	—	—	—	—	—	—	74.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
4	GPT-5.5OpenAI	93.60%	—	—	—	44.30%	—	52.20%	58.60%	—	—	—	—	—	—	—	—	—	78.20% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
5	GPT-5.4OpenAI	92.80%	—	—	—	—	—	39.80%	57.70%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
6	Gemini 3.5 FlashGoogle	92.20%	—	—	—	40.20%	—	—	55.10%	83.60% (column leader)	—	—	—	—	—	72.10%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
7	Gemini 3.5 ProGoogle	91.80%	78.40%	89.70% (column leader)	94.50%	32.60%	81.30%	—	—	82.10%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
8	GLM-5.2Z.ai (Zhipu AI)	91.20%	—	—	—	—	—	—	62.10%	—	—	91% (column leader)	—	—	99.20% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	76.80% (column leader)	—	—	—	48.90% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	20.90% (column leader)	—	—	46.20% (column leader)	74.40% (column leader)	—	—	40.50% (column leader)	54.70% (column leader)	—	—	—	—	—	—	92.50% (column leader)	94.40% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	63.70% (column leader)	—	—	—	—	—	—	—	—	—	81% (column leader)	—	—	—	—	—	—
9	Kimi K2.6Moonshot AI	90.50%	80.20%	—	—	—	—	—	58.60%	79.40%	83.20%	—	76.70% (column leader)	—	96.40%	—	—	89.60% (column leader)	—	—	—	—	54% (column leader)	—	—	—	—	—	—	—	—	—	—	66.70% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	92.70% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
10	Gemini 3 FlashGoogle	90.40%	78%	—	—	33.70%	—	43.50%	—	81.20%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
11	DeepSeek-V4-ProDeepSeek	90.10%	80.60%	87.50%	—	—	93.50% (column leader)	—	55.40%	—	83.40% (column leader)	89.80%	76.20%	67.90% (column leader)	—	—	37.70% (column leader)	—	—	—	3,206 rating (column leader)	—	—	95.20% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	90.20% (column leader)	—	—	—	—	—	—	—	84.40% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	57.90% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—
12	Grok 4.3xAI	90.10%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
13	Claude Sonnet 4.6Anthropic	89.90%	79.60%	—	—	—	—	49%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
14	GPT-5 ProOpenAI	89.60%	78.40%	88.20%	96.50% (column leader)	—	81.30%	42.10%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
15	Gemini 3 ProGoogle	88.90%	74.20%	87.30%	91.20%	28.40%	76.80%	—	—	78.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
16	DeepSeek-V4-FlashDeepSeek	88.10%	79%	86.40%	—	—	91.60%	—	—	—	73.20%	88.40%	73.30%	56.90%	—	—	34.80%	—	—	—	3,052 rating	—	—	94.80%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	78.70% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
17	GPT-5.4 miniOpenAI	88%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
18	Kimi K2.5Moonshot AI	87.60%	76.80%	87.10%	96.10%	—	—	—	—	78.50%	60.60%	—	—	50.80%	—	—	—	—	—	—	—	—	50.20%	—	—	—	—	—	—	—	—	—	50.70%	—	—	70% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	77.10% (column leader)	—	—	—	—	—	—	—	30.10% (column leader)	95.40% (column leader)	—	—	—	—	—	—	—	—	81.80% (column leader)	—	—	—	85% (column leader)	—	—	61% (column leader)	—	—	84.20% (column leader)	90.10% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	92.30 points (column leader)	—	57.40% (column leader)	—	—	—	48.70% (column leader)	—	—	—	73% (column leader)	—	—	—	—	—	—	87.40% (column leader)	86.60% (column leader)	—	—	—
19	Gemini 2.5 ProGoogle	86.40%	59.60%	—	88%	21.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
20	GLM-5.1Z.ai (Zhipu AI)	86.20%	—	—	—	—	—	—	—	—	68%	83.80%	—	—	95.30%	—	—	—	—	—	—	—	—	—	94% (column leader)	—	—	71.80%	—	—	—	42.70%	58.40% (column leader)	63.50%	—	—	—	—	—	—	—	—	—	—	79.30% (column leader)	—	—	—	—	—	68.70% (column leader)	—	—	—	—	31% (column leader)	—	—	52.30% (column leader)	—	—	—	—	82.60% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	40.70% (column leader)	—	—	—	—	—
21	Grok 4.2xAI	86%	73%	87%	93%	24%	—	40%	—	—	—	—	—	—	—	15.50%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
22	GLM-4.7Z.ai (Zhipu AI)	85.70%	73.80%	84.30%	95.70%	—	—	—	—	—	52%	82%	66.70%	41%	—	—	24.80%	84.90%	—	—	—	—	—	—	93.50%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	66.60% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	97.10% (column leader)	—	—	—	—	—	42.80% (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	87.40% (column leader)	—	—	33.30% (column leader)	—	—	—	—	—	—	—
23	Claude Opus 4.6Anthropic	85.40%	79.80%	87.90%	90.50%	18.60%	—	—	—	—	—	—	—	—	—	—	—	—	51.20%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
24	Claude Opus 4.5Anthropic	83.10%	76.40%	86.20%	87%	15.90%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
25	Grok 4.1xAI	83%	70%	85.50%	90%	22%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
26	Gemini 2.5 FlashGoogle	82.80%	60.40%	—	72%	11%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
27	Grok 4.3 minixAI	82.50%	68%	84.50%	88%	19.50%	72%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
28	GPT-5.5 miniOpenAI	82.40%	72.60%	84.50%	91%	—	74.80%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
29	Claude Opus 4.1Anthropic	80.90%	74.50%	83.50%	78%	11.20%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
30	Claude Sonnet 4.5Anthropic	80.60%	73.10%	84%	84.20%	12.80%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
31	Grok 4xAI	80%	65%	83%	86%	19%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
32	GPT-5.3OpenAI	79.10%	68.90%	82.70%	88.40%	—	70.20%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
33	Claude Sonnet 4.4Anthropic	77.90%	69.50%	81.70%	79.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
34	Grok 4.20xAI	77.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
35	Qwen3-235B-A22B-Instruct-2507Qwen (Alibaba)	77.50 accuracy %	—	83 accuracy %	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	88.70 accuracy %	—	—	—	—	—	—	—	—	—	—	—	57.30 accuracy % (column leader)	70.30 accuracy % (column leader)	—	41.80 accuracy % (column leader)	79.20 win rate % (column leader)	—	70.90 accuracy % (column leader)	—	—	—	—	87.50 score (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	55.40 accuracy % (column leader)	—	—	—	—	—	75.40 accuracy % (column leader)	—	51.80 accuracy % (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	79.40 accuracy % (column leader)	93.10 accuracy % (column leader)	—	77.50 accuracy % (column leader)	87.90 accuracy % (column leader)	—	—	—	50.20 accuracy % (column leader)	—	—	—	54.30 accuracy % (column leader)	—	62.60 accuracy % (column leader)	—	—	—	74.60 accuracy % (column leader)	—	—	—	—	—	85.20 score (column leader)	95 accuracy % (column leader)	—
36	GPT-5.2OpenAI	76.30%	65.10%	80.90%	85%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
37	Kimi K2 (Instruct)Moonshot AI	75.10 % avg@8	65.80 % pass@1 (single attempt, agentic)	—	49.50 % avg@64	—	—	—	—	—	—	—	47.30 % pass@1 (single attempt, agentic)	—	—	—	—	53.70 % pass@1	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	76.50 % accuracy (column leader)	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	27.10 % pass@1 (column leader)	—	—	—	—	—	—	—	—	—	—	66.10 score (column leader)	—	—	—	—	—	—	—	—	—
38	Grok 4 FastxAI	75%	58%	79.50%	78%	—	63%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
39	GPT-5.1OpenAI	73.50%	61.70%	79.10%	82.60%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
40	GPT-5.2 miniOpenAI	71.80%	58.40%	77.50%	80.20%	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—