Kimi K2 (Instruct)

CurrentVerified · Jun 27, 2026

The foundational open-weight K2 release (HF repo moonshotai/Kimi-K2-Instruct; github.com/MoonshotAI/Kimi-K2). README verbatim: 'Kimi K2 is a state-of-the-art mixture-of-experts (MoE) language model with 32 billion activated parameters and 1 trillion total parameters.' Variant Kimi-K2-Instruct = 'ref

profile normalized against the 70-model field

Context window· 131K of 10M1%

Max output—

Output speed—

Affordability—

Capability breadth· 1 of 119%

Capability switches · 1 of 11

Reasoning mode

Tool / function use

Streaming

JSON mode

Structured outputs

Prompt caching

Fine-tuning

Web search

Code execution

Vision input

Audio input

Specifications

Every value carries a primary source and a verification date.

Capacity

Context window

131K

Capabilities

Reasoning mode

Tool / function use

Yes

API

API model ID

moonshotai/Kimi-K2-Instruct

General

Release date

July 28, 2025

Benchmarks

Sourced evaluation scores, each verified against its primary source.

SWE-bench Verified

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

65.8 % pass@1 (single attempt, agentic)Verified

SWE-bench Multilingual

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

47.3 % pass@1 (single attempt, agentic)Verified

Tau2-Bench

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

66.1 scoreVerified

ACEBench (En)

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

76.5 % accuracyVerified

LiveCodeBench v6

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

53.7 % pass@1Verified

AIME 2025

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

49.5 % avg@64Verified

GPQA Diamond

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

75.1 % avg@8Verified

OJBench

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

27.1 % pass@1Verified

Loading…

Kimi K2 (Instruct)

CurrentVerified · Jun 27, 2026

Benchmarks

Sourced evaluation scores, each verified against its primary source.

SWE-bench Verified

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

65.8 % pass@1 (single attempt, agentic)Verified

SWE-bench Multilingual

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

47.3 % pass@1 (single attempt, agentic)Verified

Tau2-Bench

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

66.1 scoreVerified

ACEBench (En)

K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual

76.5 % accuracyVerified

LiveCodeBench v6

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

53.7 % pass@1Verified

AIME 2025

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

49.5 % avg@64Verified

GPQA Diamond

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

75.1 % avg@8Verified

OJBench

with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking

27.1 % pass@1Verified