Jun 18, 2026

Kimi K2.7 Code: 추론 토큰을 30% 줄이는 Moonshot AI의 1T 오픈소스 코딩 에이전트

K2.6의 코딩 특화 후속작 — 더 나은 벤치마크, 약 30% 적은 추론 토큰, 그리고 관대한 오픈 웨이트 라이선스

Douglas Lai

Share to

대부분의 AI 코딩 모델은 여전히 한 번에 끝나는 completions로 평가됩니다. Kimi K2.7 Code는 더 어려운 문제를 위해 만들어졌습니다. 바로 정확성과 비용이 autocomplete보다 계획과 오케스트레이션에 의해 좌우되는 장기 소프트웨어 엔지니어링입니다. 이는 Moonshot AI의 최신 오픈소스 코딩 모델로, 자율 에이전트에 맞게 특별히 튜닝된 1조 파라미터 Mixture-of-Experts(MoE) 모델이며, K2.6 대비 Kimi Code Bench v2에서 21.8% 향상과 함께 추론 토큰을 약 30% 더 적게 사용했다고 보고됩니다. 또한 가중치는 Hugging Face에 공개되어 있으며 관대한 Modified MIT 라이선스로 배포됩니다. (MarkTechPost)

이 가이드는 K2.7 Code가 실제로 무엇인지, K2.6에서 어떻게 개선되었는지, K2 패밀리 내에서 어떤 위치인지, 라이선스와 가격은 어떤지, 그리고 빌더들이 이를 Eigent 같은 에이전트 플랫폼 안에서 어떻게 활용하고 있는지 살펴봅니다.

Kimi K2.7 Code란 무엇인가?

Kimi K2.7 Code는 Moonshot AI의 오픈 웨이트 코딩 특화 대규모 언어 모델로, K2.6 아키텍처를 기반으로 하지만 코드 생성, 소프트웨어 엔지니어링 워크플로우, 에이전트형 tool use에 맞춰 명시적으로 튜닝되었습니다. 일반적인 대화형 모델이 아니라, Moonshot은 이를 편집기, 터미널, 그리고 멀티툴 오케스트레이션 런타임 안에서 "실제 업무"를 수행하도록 설계된 장기 코딩 에이전트로 설명합니다. (Kimi)

내부적으로 K2.7 Code는 Mixture-of-Experts 아키텍처를 사용하며 총 1조 개의 파라미터와 토큰당 약 320억 개의 활성 파라미터를 가집니다. 이는 K2.6과 같은 구조적 규모지만, 코딩에 맞게 업데이트된 expert와 routing을 사용합니다. 또한 256k 토큰 컨텍스트 윈도우를 제공하여, 에이전트가 대규모 코드베이스, 로그, 다단계 계획을 과도한 chunking 없이 컨텍스트에 유지할 수 있습니다. (FAQ.com)

가중치는 Modified MIT 라이선스 하에 오픈소스로 공개되어 있고 Hugging Face에서 제공되며, K2.7 Code는 Kimi API와 Kimi Code 제품을 통해서도 사용할 수 있습니다. 이런 조합 — 최첨단 수준의 코딩 성능과 관대한 라이선스 — 은 독점 AI 개발자, 코드 코파일럿, 자율 에이전트 플랫폼을 구축하는 팀에게 즉시 중요한 의미를 가집니다. 또한 Zhipu의 GLM-5.2와 DeepSeek V4 Pro처럼 우리가 다뤄온 다른 오픈 웨이트 플래그십의 코딩 중심 사촌격 모델입니다. (Flowtivity)

코딩과 에이전트를 위한 K2.6 대비 핵심 개선점

Moonshot의 자체 벤치마크와 3자 리뷰는 세 가지 주요 변화를 강조합니다. 더 나은 코딩 정확도, 더 높은 agentic 성공률, 그리고 더 적은 추론 토큰 사용입니다. (Noqta)

K2.6 대비 Kimi Code Bench v2에서 +21.8% — K2.7 Code는 Moonshot의 내부 코딩 벤치마크에서 K2.6을 개선했으며, K2.6은 이미 어려운 공개 코딩 과제에서 많은 폐쇄형 모델을 앞서 있었습니다. (MarkTechPost)
Program Bench에서 +11.0%, MLS Bench Lite에서 +31.5% — Kimi의 릴리스 스레드에 따르면, K2.7 Code는 두 벤치마크 모두에서 K2.6보다 뛰어난 성능을 보이며, program synthesis와 코드 중심의 다단계 추론을 겨냥합니다. (Moonshot)
약 30% 더 적은 추론 토큰 — 이 모델은 명시적으로 "덜 과하게 생각하기"에 최적화되어 있으며, 유사한 작업에서 K2.6보다 약 30% 적은 추론 토큰을 사용하면서 더 나은 결과를 달성합니다. (FAQ.com)

깊은 tree-of-thought나 tool-heavy 에이전트를 운영하는 팀에게 마지막 포인트는 매우 중요합니다. 추론 토큰을 30% 줄이면 같은 또는 더 나은 작업 성공률을 유지하면서 비용과 지연 시간을 직접 낮출 수 있습니다. 체인 깊이와 비용을 맞바꾸는 대신, K2.7 Code는 더 효율적인 추론과 더 높은 벤치마크 점수를 동시에 제공하려고 합니다. (Noqta)

K2.7 Code가 K2 패밀리에서 차지하는 위치

K2.7 Code를 빠르게 진화하는 K2 라인 위에 얹힌 최신 "코드 에이전트" 특화 모델로 보면 이해하기 쉽습니다.

Kimi K2.5: 스웜 실행이 가능한 시각적 agentic intelligence

K2.5는 Kimi의 "visual agentic intelligence" 스토리를 도입했습니다. 즉, 언어, 코드, 비전을 결합한 네이티브 멀티모달 모델입니다. 약 15조 개의 혼합 비주얼 및 텍스트 토큰으로 학습되었고, 전용 MoonViT vision encoder(~4억 파라미터)를 사용해 스크린샷, UI 디자인, 문서를 동작하는 인터페이스와 구조화된 출력으로 변환하는 데 뛰어났습니다. (Hugging Face)

또한 Agent Swarm을 제공했는데, 이는 하나의 작업에서 최대 약 100개의 sub-agent와 약 1,500회의 tool call을 조정하는 런타임으로, 광범위한 탐색 워크로드에서 단일 에이전트 구성보다 약 4.5배 빠른 실행을 제공합니다. HLE, BrowseComp, MMMU Pro, VideoMMMU, SWE-Bench Verified 전반에서 K2.5는 오픈 웨이트 모델 중 최고 수준의 성능을 기록했습니다. (InfoQ)

Kimi K2.6: 장기 실행 agent swarm을 위한 1T 오픈 웨이트 모델

K2.6은 1T 파라미터 MoE 백본(활성 32B)과 256k 컨텍스트 윈도우로 이러한 아이디어를 한 단계 더 발전시켰고, 장기 코딩과 대규모 agent swarm에 정확히 초점을 맞췄습니다. Modified MIT 라이선스 하의 오픈 웨이트 모델이며 멀티모달 입력을 지원하고, repo 규모의 리팩터링, 코딩 기반 설계, 수시간 단위의 연구 자동화를 목표로 합니다. (MyAIGuide)

Moonshot과 파트너 분석에 따르면 K2.6은 다음과 같습니다.

SWE-Bench Pro와 Humanity's Last Exam에서 GPT-5.4 및 Claude Opus급 모델을 상회 — 두 지표 모두에서 동시에 최상위를 주장한 첫 오픈 웨이트 모델입니다. (API易)
단일 실행에서 최대 약 300개의 병렬 sub-agent와 약 4,000개의 coordinated tool call로 12시간 이상의 자율 작업을 수행하며, 스웜 전반에 걸쳐 일관된 계획과 상태를 유지할 수 있습니다. (Halmob)
vLLM 또는 SGLang이 구동하는 H100급 하드웨어에 배포할 수 있으며, 네이티브 INT4 가중치와 오픈 라이선스를 활용해 비용 효율적인 자체 호스팅이 가능합니다. (AllThings.how)

Kimi K2.7 Code: K2.6 위의 코딩 특화 모델

K2.7 Code는 이 기반 위에 놓인 K2.6의 코딩 특화 후속작으로, 1T MoE 규모와 256k 컨텍스트를 유지하면서 장기 코드 작업과 agentic reasoning에 맞게 다시 최적화되었습니다. 범용 대화에서 최고가 되려 하기보다, 핵심 정체성을 "coding agent"에 두고 있습니다. (MarkTechPost)

모델	초점	아키텍처 / 컨텍스트	Agent swarm 기능
K2.5	시각적 agentic intelligence (비전 + 코드 + 리서치)	1T MoE, 약 32B 활성, 256k 컨텍스트, 멀티모달 비전 인코더	약 100개 sub-agent, 약 1,500개 tool call
K2.6	장기 코딩 + agent swarm	1T MoE, 32B 활성, 256k 컨텍스트, INT4, 멀티모달	약 300개 sub-agent, 약 4,000단계 / 12시간 이상
K2.7 Code	코딩 중심 오픈소스 에이전트	1T MoE, 32B 활성, 256k 컨텍스트, 코딩 튜닝	K2.6보다 향상, 더 적은 추론 토큰 사용

이미 K2.5/K2.6을 GPT- 및 Claude급 API의 오픈 웨이트 대안으로 살펴보고 있는 팀에게 K2.7 Code는 새로운 아키텍처라기보다 토큰당 더 나은 코딩 성능에 가깝습니다.

라이선스, 가격, 배포 옵션

K2.7 Code의 큰 매력 중 하나는 오픈 웨이트와 비교적 관대한 라이선스의 조합입니다.

Modified MIT 라이선스 — 주된 제약은 attribution이며, 대규모 상업적 사용을 허용합니다. 기업과 스타트업 모두에게 이는 경쟁이나 확장을 제한하는 많은 "오픈" 라이선스보다 훨씬 유연합니다. (Flowtivity)
Hugging Face의 오픈 웨이트 배포 — 가중치와 배포 가이드가 그곳에 제공되며, K2.5와 K2.6과 유사하게 vLLM, SGLang 또는 커스텀 inference stack에 쉽게 가져다 쓸 수 있습니다. (Kimi)
API 가격 — 호스티드 접근의 경우 Kimi API에서 K2.7 Code는 입력 토큰 100만 개당 약 $0.95, 출력 토큰 100만 개당 $4.00로 책정되어 있으며, 대형 컨텍스트 코딩 워크로드에 경쟁력이 있습니다. (FAQ.com)

K2.6은 이미 여러 3자 제공업체(Novita, Baseten, Fireworks, Parasail)에서 호스팅되고 있으며, K2.7 Code도 그 뒤를 따를 것으로 예상됩니다. 이는 실험과 하이브리드 자체 호스팅/호스팅 환경의 진입 장벽을 낮춥니다. 규제가 엄격한 환경에서는 API로 시작해 같은 모델 패밀리 안에서 자체 호스팅으로 전환할 수 있다는 점이 강력한 도입 스토리입니다. (MyAIGuide)

K2.7 Code가 AI 코딩 에이전트에 중요한 이유

지금까지 대부분의 AI 코딩 도구는 단일 세션 코파일럿이었습니다. 자동완성, 인라인 설명, 가끔의 리팩터링 정도였죠. K2.7 Code는 비용과 정확성이 한 번의 completion이 아니라 계획의 시간 범위에 의해 좌우되는 장시간, 멀티툴, 에이전트 스타일 워크플로우를 위해 명시적으로 설계되었습니다. (Kimi) 세 가지 측면이 두드러집니다.

256k 컨텍스트를 활용한 장기 계획. 256k 윈도우는 에이전트가 코드베이스 스냅샷, 설계 문서, 로그, 테스트 결과를 하나의 프롬프트에 담아 전체 프로젝트 상태를 유지할 수 있게 해줍니다. 덕분에 chunking에 과도하게 의존하거나 취약한 retrieval heuristic에 기대지 않아도 됩니다. "이 서비스를 Node에서 Rust로 테스트와 CI까지 포함해 이식해 줘" 또는 "이 모바일 앱을 새 디자인 시스템으로 다시 작성해 줘" 같은 end-to-end 작업이 한 번의 오케스트레이션 실행으로 가능해집니다. (Halmob)
깊은 체인을 위한 효율적 추론. K2.6 대비 약 30% 줄어든 추론 토큰은 더 깊은 체인을 덜 고통스럽게 만듭니다. 더 많은 tool call, 더 많은 introspection, 더 많은 branch-and-bound 탐색을 비용과 지연 폭증 없이 감당할 수 있습니다. line이 아니라 tree로 생각하는 자율 개발자에게는 이 효율성이 전략적으로 중요합니다. (Moonshot)
최첨단 급 영역의 오픈 웨이트. K2.6은 이미 오픈 웨이트를 유지하면서 SWE-Bench Pro와 HLE에서 GPT-5급 모델과 맞먹거나 능가했으며, K2.7 Code는 그 계보를 이어 코딩과 에이전트 작업에 집중합니다. 이제 팀은 오픈소스 유연성을 얻기 위해 큰 역량 격차를 받아들일 필요가 없습니다. (API易)

실제로 이는 K2.7 Code를 다음과 같은 용도에 매력적인 백본으로 만듭니다.

몇 분이 아니라 몇 주 동안 repo를 책임지는 자율 "AI dev" 에이전트
여러 서비스를 가로질러 이슈를 분류, 수정, 검증하는 CI/CD 통합 에이전트
새로운 제품을 스캐폴딩하고, 마이그레이션을 수행하며, observability와 security 같은 횡단 관심사를 강제하는 내부 플랫폼 에이전트

Kimi K2.7 Code 평가를 시작하는 방법

이미 오픈 웨이트 코딩 모델을 실험하고 있다면, K2.7 Code를 통합하는 일은 전체 재설계가 아니라 집중된 평가 스프린트가 될 수 있습니다.

기존 파이프라인에서 K2.6 ↔ K2.7 Code를 교체해 보세요. 이미 장기 코딩이나 에이전트 실험에 K2.6을 사용하고 있다면, K2.7 Code를 동일한 흐름(다단계 리팩터링, 멀티 에이전트 코드 리뷰, 문서 + 테스트 생성)에 넣고 작업 성공률, tool-call 수, 토큰 사용량을 측정하세요. (Noqta)
장난감 과제가 아니라 현실적인 "12시간 에이전트" 시나리오를 테스트하세요. 이 스웜 지향 설계는 멀티아워 작업, 즉 여러 서비스와 repo를 가로지르며 계획, 코딩, 실행, 디버깅을 수행하는 용도에 맞춰져 있습니다. 평가가 실제 업무에 가까울수록 장기 실행과 효율성의 장점이 더 잘 드러납니다. (i-SCOOP)
호스팅 전략을 일찍 결정하세요. 빠른 반복을 위해 Kimi API로 시작한 뒤, 엄격한 data residency나 대규모 비용 통제가 필요하다면 H100급 하드웨어의 자체 호스팅으로 이전하는 경로를 계획하세요. Modified MIT 라이선스와 Hugging Face 배포는 이런 흐름에 맞춰 의도적으로 설계되어 있습니다. (AllThings.how)

K2.7 Code가 엔지니어링 및 제품 팀에 의미하는 것

Kimi K2.7 Code는 최첨단 코딩 및 에이전트 모델이 더 이상 폐쇄형 API만의 전유물이 아님을 보여줍니다. 유연한 라이선스를 가진 오픈 웨이트 모델이 이제 벤치마크와 실제 워크플로우 모두에서 설득력 있게 경쟁할 수 있습니다. 엔지니어링과 제품 팀에게 이는 새로운 설계 공간을 열어 줍니다. 즉, 단일 벤더에 묶이지 않으면서 인프라와 문화에 깊숙이 통합된 에이전트를 만들 수 있다는 뜻입니다. (MyAIGuide)

개발자 플랫폼, 자율 코딩 에이전트, AI 동료를 만들고 있다면 K2.7 Code는 "그냥 또 하나의 모델"이 아니라, 특히 장기 작업, 멀티툴 오케스트레이션, 온프레미스 또는 VPC 배포가 절대적으로 필요할 때 기본 백본 후보로 볼 가치가 있습니다. (Halmob)

이것이 바로 model-agnostic, multi-agent 인프라가 필요한 이유입니다. 모델 환경은 빠르게 변하고, 승리하는 플랫폼은 스택 전체를 다시 설계하지 않고도 K2.7 Code 같은 코딩 특화 모델을 그 모델이 가장 잘하는 작업에 끼워 넣을 수 있는 곳입니다. 그런 기반 위에서 구축하고 있다면, 오픈소스 멀티 에이전트 플랫폼 Eigent이 실제 워크플로우 전반에서 특화 모델을 어떻게 오케스트레이션하는지 살펴보세요.

자주 묻는 질문

Kimi K2.7 Code는 무엇인가?

Kimi K2.7 Code는 Moonshot AI의 오픈 웨이트 코딩 특화 대규모 언어 모델입니다. 256k 토큰 컨텍스트 윈도우를 가진 1조 파라미터 Mixture-of-Experts(토큰당 32B 활성) 모델로, K2.6 아키텍처를 기반으로 하지만 코드 생성, 소프트웨어 엔지니어링 워크플로우, agentic tool use에 맞춰 튜닝되었습니다. Hugging Face에 가중치가 공개된 Modified MIT 라이선스로 배포됩니다.

K2.7 Code는 K2.6보다 어떻게 더 나은가?

K2.7 Code는 K2.6 대비 Kimi Code Bench v2에서 21.8% 향상을 보고했으며, Program Bench에서는 +11.0%, MLS Bench Lite에서는 +31.5%를 기록했습니다. 동시에 유사한 작업에서 추론 토큰을 약 30% 더 적게 사용합니다. 결과적으로 더 낮은 비용과 지연 시간으로 더 나은 코딩 정확도와 agentic 성공률을 제공합니다.

"추론 토큰을 30% 더 적게 사용"한다는 것은 실제로 무슨 뜻인가?

K2.7 Code는 "과하게 생각하기"를 줄이도록 최적화되어 더 짧은 추론 체인으로 더 나은 결과를 얻습니다. tool-heavy 또는 tree-of-thought 에이전트에게 이는 같은 또는 더 높은 작업 성공률에 대해 토큰 비용과 지연 시간이 직접 낮아진다는 뜻이며, 더 깊은 체인과 더 많은 tool call을 현실적으로 감당할 수 있게 합니다.

Kimi K2.7 Code의 가격은 얼마인가?

Kimi API를 통해 K2.7 Code는 입력 토큰 100만 개당 약 $0.95, 출력 토큰 100만 개당 $4.00 정도로 책정되어 있습니다. 가중치가 Modified MIT 라이선스 아래 오픈되어 있으므로, 팀은 H100급 하드웨어와 vLLM 또는 SGLang으로 자체 호스팅하여 대규모 비용을 통제할 수도 있습니다.

Kimi K2.7 Code는 오픈소스인가?

네. 대규모 상업적 사용을 attribution과 함께 허용하는 Modified MIT 라이선스로 Hugging Face에서 오픈 웨이트 형태로 배포됩니다. 또한 Kimi API와 Kimi Code 제품을 통해서도 제공되며, 3자 호스팅은 K2.6의 제공업체를 뒤따를 것으로 예상됩니다.

Kimi K2.7 Code를 Eigent와 함께 사용할 수 있나?

네. Eigent의 model-agnostic, multi-agent 아키텍처를 사용하면 MCP tools와 Skills framework를 통해 코딩 및 장기 작업을 K2.7 Code로 라우팅할 수 있습니다. 256k 컨텍스트와 토큰 효율적인 추론을 활용해 repo 규모의 작업을 수행하면서, 다른 모델은 일상적인 작업에 사용할 수 있습니다.