LMB

Language Model Board, a better way to read the LM Arena results

Style control

Rank	Model	Rating	95% CI
1	gemini-2.5-pro	1456	+5/-5
1	gpt-5-high	1447	+7/-7
1	claude-opus-4-1 8/5 16k	1447	+7/-7
2	o3 4/16	1444	+4/-4
2	chatgpt-4o-latest 3/26	1443	+4/-4
2	gpt-4.5-preview 2/27	1439	+6/-6
2	claude-opus-4-1 8/5	1435	+6/-6
7	gpt-5-chat	1426	+7/-7
7	qwen-max 8/15	1425	+8/-8
8	grok-4 7/9	1422	+6/-6
8	kimi-k2-0711-preview open	1421	+5/-5
8	claude-opus-4 5/14 16k	1419	+5/-5
8	qwen3-235b-a22b-instruct Jul open	1418	+6/-6
8	deepseek-v3.1 open	1418	+8/-8
8	deepseek-r1 5/28 open	1417	+6/-6
8	deepseek-v3.1 Yes open	1415	+9/-9
9	mistral-medium Aug	1411	+7/-7
9	glm-4.5 open	1410	+6/-6
12	claude-opus-4 5/14	1409	+5/-5
13	gpt-4.1 4/14	1409	+5/-5
13	grok-3-preview 2/24	1409	+4/-4
15	gemini-2.5-flash	1405	+5/-5
16	qwen3-235b-a22b Jul Yes open	1400	+7/-7
21	o1 12/17 2024	1399	+4/-4
16	mai-1-preview	1399	+9/-9
21	qwen3-235b-a22b No open	1398	+5/-5
22	claude-sonnet-4 5/14 32k	1398	+5/-5
23	deepseek-r1 open	1394	+5/-5
23	o4-mini 4/16	1394	+5/-5
23	deepseek-v3 3/24 open	1392	+4/-4
23	gpt-5-mini-high	1390	+7/-7
23	hunyuan-t1 7/11	1388	+8/-8
30	claude-3-7-sonnet 2/19 32k	1385	+4/-4
23	qwen-vl-max 8/13	1384	+15/-15
30	mistral-medium May	1384	+5/-5
30	claude-sonnet-4 5/14	1383	+5/-5
31	qwen3-coder-480b-a35b-instruct open	1381	+6/-6
31	hunyuan-turbos 4/16	1381	+6/-6
31	qwen3-30b-a3b-instruct Jul	1380	+7/-7
31	gpt-4.1-mini 4/14	1379	+5/-5
31	glm-4.5-air open	1377	+6/-6
34	qwen3-235b-a22b open	1374	+5/-5
40	claude-3-7-sonnet 2/19	1369	+4/-4
39	minimax-m1 open	1368	+5/-5
40	claude-3-5-sonnet 10/22 2024	1368	+3/-3
43	gemma-3-27b-it open	1364	+4/-4
43	o3-mini-high	1363	+5/-5
43	gemini-2.0-flash v1	1362	+4/-4
43	grok-3-mini-high	1362	+6/-6
45	grok-3-mini-beta	1359	+5/-5
46	deepseek-v3 open	1357	+5/-5
46	gpt-oss-120b open	1355	+7/-7
46	mistral-small Jun open	1355	+6/-6
45	step-3	1353	+10/-10
50	gemini-2.0-flash-lite-preview 2/5	1352	+4/-4
50	gemini-1.5-pro v2	1350	+3/-3
49	gpt-5-nano-high	1348	+9/-9
52	o3-mini	1348	+4/-4
52	command-a Mar open	1347	+4/-4
49	hunyuan-turbos 2/26	1347	+11/-11
50	qwen3-32b open	1346	+9/-9
50	llama-3.1-nemotron-ultra-253b v1	1345	+11/-11
55	gpt-4o 5/13 2024	1344	+3/-3
48	glm-4.5v	1342	+16/-16
52	glm-4-plus 1/11	1342	+8/-8
52	nvidia-llama-3.3-nemotron-super-49b v1.5 open	1342	+9/-9
57	claude-3-5-sonnet 6/20 2024	1341	+3/-3
52	gemma-3-12b-it open	1341	+9/-9
52	hunyuan-turbo 1/10	1340	+11/-11
59	qwq-32b open	1337	+5/-5
61	o1-mini	1336	+3/-3
61	llama-3.1-405b-instruct-bf16 open	1335	+4/-4
62	gpt-4o 8/6 2024	1334	+4/-4
62	llama-3.1-405b-instruct-fp8 open	1334	+3/-3
63	grok-2 8/13 2024	1333	+3/-3
60	step-2-16k-exp Dec 2024	1332	+8/-8
63	gpt-oss-20b open	1329	+7/-7
64	qwen3-30b-a3b open	1329	+5/-5
67	yi-lightning	1328	+5/-5
71	llama-4-maverick-17b-128e-instruct open	1326	+5/-5
62	llama-3.3-nemotron-49b-super v1 open	1325	+12/-12
64	hunyuan-large 2/10	1325	+10/-10
75	gpt-4-turbo 4/9 2024	1324	+4/-4
74	step-1o-turbo Jun	1323	+6/-6
76	claude-3-opus 2/29 2024	1323	+3/-3
75	gpt-4.1-nano 4/14	1321	+8/-8
76	amazon-nova-experimental-chat 5/14	1320	+5/-5
78	llama-3.3-70b-instruct open	1320	+3/-3
76	llama-4-scout-17b-16e-instruct open	1320	+5/-5
80	claude-3-5-haiku 10/22 2024	1318	+3/-3
79	glm-4-plus	1318	+5/-5
78	gemma-3n-e4b-it	1318	+5/-5
83	gpt-4o-mini 7/18 2024	1316	+3/-3
83	gpt-4-1106-preview	1315	+4/-4
83	gpt-4-0125-preview	1315	+4/-4
83	athene-v2-chat open	1314	+4/-4
83	mistral-large Jul 2024 open	1314	+4/-4
85	gemini-1.5-flash v2	1312	+4/-4
83	hunyuan-standard 2/10	1310	+10/-10
97	grok-2-mini 8/13 2024	1307	+3/-3
97	mistral-large Nov 2024 open	1305	+4/-4
96	athene-70b 7/25 open	1305	+5/-5
93	gemma-3-4b-it open	1304	+9/-9
99	qwen2.5-72b-instruct open	1303	+4/-4
99	magistral-medium Jun	1301	+7/-7
99	mistral-small-3.1-24b-instruct Mar open	1301	+5/-5
99	llama-3.1-nemotron-70b-instruct open	1298	+7/-7
99	hunyuan-large-vision	1296	+9/-9
104	llama-3.1-70b-instruct open	1295	+3/-3
106	amazon-nova-pro-v1.0	1290	+4/-4
104	jamba-1.5-large open	1289	+7/-7
103	llama-3.1-tulu-3-70b open	1289	+10/-10
104	reka-core 9/4 2024	1289	+7/-7
107	gpt-4 3/14	1288	+5/-5
109	gemma-2-27b-it open	1287	+3/-3
104	llama-3.1-nemotron-51b-instruct open	1287	+10/-10
110	gemma-2-9b-it-simpo open	1280	+7/-7
111	nemotron-4-340b-instruct open	1280	+5/-5
110	command-r-plus Aug 2024 open	1279	+6/-6
115	llama-3-70b-instruct open	1277	+3/-3
115	gpt-4 6/13	1276	+4/-4
113	glm-4 5/20	1276	+7/-7
114	reka-flash 9/4 2024	1276	+7/-7
115	mistral-small-24b-instruct Jan open	1276	+6/-6
115	qwen2.5-coder-32b-instruct open	1272	+8/-8
120	c4ai-aya-expanse-32b open	1269	+5/-5
123	command-r-plus open	1266	+4/-4
125	gemma-2-9b-it open	1265	+4/-4
123	qwen2-72b-instruct open	1265	+5/-5
125	claude-3-haiku 3/7 2024	1263	+4/-4
125	amazon-nova-lite-v1.0	1262	+5/-5
125	gemini-1.5-flash-8b v1	1262	+4/-4
127	phi-4 open	1259	+4/-4
125	olmo-2-0325-32b-instruct	1256	+11/-11
128	command-r Aug 2024 open	1255	+6/-6
134	mistral-large Feb 2024	1245	+5/-5
134	amazon-nova-micro-v1.0	1245	+5/-5
135	jamba-1.5-mini open	1241	+7/-7
134	ministral-8b Oct 2024 open	1241	+9/-9
135	hunyuan-standard-256k	1237	+11/-11
136	reka-flash-21b-online 2/26 2024	1236	+7/-7
138	mixtral-8x22b-instruct v0.1 open	1233	+4/-4
138	command-r open	1232	+5/-5
138	reka-flash-21b 2/26 2024	1230	+6/-6
138	c4ai-aya-expanse-8b open	1228	+7/-7
139	mistral-medium	1227	+5/-5
140	gpt-3.5-turbo 1/25	1226	+5/-5
140	llama-3-8b-instruct open	1226	+3/-3
138	llama-3.1-tulu-3-8b open	1225	+10/-10
145	yi-1.5-34b-chat open	1218	+5/-5
142	zephyr-orpo-141b-A35b v0.1 open	1217	+10/-10
149	llama-3.1-8b-instruct open	1215	+4/-4
144	granite-3.1-8b-instruct open	1214	+10/-10
151	gpt-3.5-turbo 11/6	1204	+9/-9
152	phi-3-medium-4k-instruct open	1202	+5/-5
153	mixtral-8x7b-instruct v0.1 open	1202	+4/-4
152	internlm2_5-20b-chat open	1199	+7/-7
153	dbrx-instruct-preview open	1199	+6/-6
154	wizardlm-70b open	1189	+9/-9
156	granite-3.0-8b-instruct open	1189	+8/-8
157	yi-34b-chat open	1188	+7/-7
157	openchat-3.5 1/6 open	1187	+8/-8
157	openchat-3.5 open	1185	+10/-10
156	granite-3.1-2b-instruct open	1185	+11/-11
159	snowflake-arctic-instruct open	1184	+6/-6
159	openhermes-2.5-mistral-7b open	1179	+10/-10
159	vicuna-33b open	1178	+6/-6
159	starling-lm-7b-beta open	1177	+7/-7
159	phi-3-small-8k-instruct open	1177	+6/-6
160	starling-lm-7b-alpha open	1173	+8/-8
161	llama-3.2-3b-instruct open	1173	+7/-7
159	nous-hermes-2-mixtral-8x7b-dpo open	1171	+12/-12
167	granite-3.0-2b-instruct open	1163	+8/-8
166	solar-10.7b-instruct v1	1159	+13/-13
166	dolphin-2.2.1-mistral-7b	1158	+15/-15
172	mistral-7b-instruct v0.2 open	1156	+6/-6
170	mpt-30b-chat open	1155	+12/-12
172	wizardlm-13b open	1155	+9/-9
170	falcon-180b-chat open	1150	+17/-17
174	phi-3-mini-4k-instruct-june-2024 open	1149	+6/-6
174	vicuna-13b open	1146	+7/-7
174	codellama-34b-instruct open	1142	+9/-9
175	palm-2	1139	+9/-9
177	phi-3-mini-128k-instruct open	1137	+7/-7
177	zephyr-7b-beta open	1137	+9/-9
180	phi-3-mini-4k-instruct open	1135	+6/-6
175	zephyr-7b-alpha open	1133	+16/-16
177	guanaco-33b open	1132	+12/-12
177	smollm2-1.7b-instruct open	1130	+13/-13
178	codellama-70b-instruct open	1125	+18/-18
181	stripedhyena-nous-7b open	1125	+11/-11
185	llama-3.2-1b-instruct open	1122	+7/-7
186	vicuna-7b open	1119	+9/-9
187	mistral-7b-instruct open	1115	+9/-9
195	olmo-7b-instruct open	1080	+11/-11
195	koala-13b open	1075	+10/-10
195	gpt4all-13b-snoozy open	1067	+15/-15
195	alpaca-13b	1067	+11/-11
195	mpt-7b-chat open	1065	+12/-12
195	chatglm3-6b open	1060	+12/-12
197	RWKV-4-Raven-14B open	1045	+11/-11
201	chatglm2-6b open	1031	+13/-13
201	oasst-pythia-12b open	1025	+11/-11
204	chatglm-6b open	1001	+13/-13
204	fastchat-t5-3b open	995	+12/-12
204	dolly-v2-12b open	980	+14/-14
206	stablelm-tuned-alpha-7b open	956	+13/-13