Jun 18, 2026

DeepSeek V4 Pro: Spezifikationen, Benchmarks, Preise und Anwendungsfälle für Agents

Ein 1,6T-Parameter Open-Weight-MoE mit 1M-Token-Kontext — Frontier-ähnliche Leistungsfähigkeit zu einem Bruchteil des Preises

Douglas Lai

Share to

DeepSeek hat seinen Ruf auf einer Idee aufgebaut: Frontier-ähnliche Leistungsfähigkeit sollte nicht Frontier-ähnlich teuer sein. DeepSeek V4 Pro ist der bisher klarste Ausdruck davon — ein Flaggschiff mit 1,6 Billionen Parametern als Mixture-of-Experts (MoE) und echtem 1M-Token-Kontextfenster, starken Reasoning- und Coding-Benchmarks sowie Preisen, die westliche Platzhirsche in vielen Szenarien um Größenordnungen unterbieten. Es wird als Open-Weight-Alternative zu geschlossenen Frontier-Modellen wie GPT-5.x, Gemini 3.x und Claude Opus 4.x angeboten und erscheint zusammen mit V4 Flash als DeepSeeks erste Zwei-Tier-Produktlinie. (DeepSeek)

Dieser Leitfaden erklärt, was V4 Pro tatsächlich ist, seine Architektur und Kontextökonomie, wie es benchmarkt, wie es sich zu V4 Flash und den geschlossenen Frontier-Modellen verhält und welche Muster Entwickler nutzen, um es in Agent-Plattformen wie Eigent einzusetzen.

Wer ist DeepSeek, und was ist V4 Pro?

DeepSeek ist ein chinesisches KI-Forschungsunternehmen (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.), das dafür bekannt ist, Open-Weight-Sprachmodelle mit großzügigen Lizenzbedingungen und äußerst wettbewerbsfähigen Preisen im Vergleich zu westlichen Anbietern zu veröffentlichen. Die im April 2026 als Preview gestartete V4-Familie ist der Nachfolger von DeepSeek V3 und kommt in zwei Varianten: V4 Pro für hochwertiges Reasoning und agentisches Coding sowie V4 Flash für schnellere, kostengünstigere Workloads. (DeepSeek)

V4 setzt DeepSeeks Strategie fort, Long-Context-, Reasoning-fähige Modelle mit Open Weights auf Hugging Face unter der MIT-Lizenz anzubieten — und damit sowohl Cloud- als auch On-Prem-Deployment zu ermöglichen. Diese offene, selbst hostbare Ausrichtung ist dieselbe, die auch andere Open-Weight-Neuzugänge antreibt, über die wir berichtet haben, etwa Zhipus GLM-5.2 und MiniMax-01.

Zentrale Spezifikationen und Architektur

DeepSeek V4 Pro ist ein Mixture-of-Experts-Modell mit 1,6 Billionen Gesamtparametern und rund 49 Milliarden aktivierten Parametern pro Token und gehört damit zu den derzeit größten verfügbaren Open-Weight-MoE-Modellen. Es unterstützt ein maximales 1M-Token-Kontextfenster und bis zu ungefähr 384K Tokens Ausgabe pro Aufruf — damit sind echte Long-Context-Aufgaben möglich, etwa das Lesen kompletter Codebasen, mehrtägige Agent-Traces und die Synthese mehrerer Dokumente. (DeepSeek)

Das Modell führt eine hybride Attention-Architektur ein, die Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) kombiniert. Dadurch sinken FLOPs und KV-Cache-Anforderungen bei 1M Kontext im Vergleich zur früheren V3.2-Architektur auf etwa 27 % bzw. 10 %. (DeepSeek)

Die Trainingspipeline nutzt mehr als 32T Tokens, den Muon-Optimizer und einen zweistufigen Post-Training-Prozess: fachliche Spezialisierung pro Teilmenge (via Supervised Fine-Tuning und GRPO), gefolgt von einer vereinheitlichten Destillation in ein einzelnes konsolidiertes Modell. Dazu kommen drei konfigurierbare Reasoning-Modi — Non-Think (schnell), Think High und Think Max — mit denen Nutzer auf API-Ebene Latenz und Kosten gegen die Tiefe des Denkens abwägen können. (DeepSeek)

Preise und Kontextökonomie

Die Preisgestaltung von V4 Pro ist ein zentraler Teil seiner Attraktivität. Auf DeepSeeks eigener API und Aggregatoren wie OpenRouter wird das Modell typischerweise mit rund 0,435 $ pro Million Cache-Miss-Input-Tokens und 0,87 $ pro Million Output-Tokens gelistet, während gecachter Prefix-Input mit ungefähr 0,0036 $ pro Million Tokens berechnet wird. DeepSeek vermarktet dies als dauerhaften Rabatt von 75 % gegenüber dem ursprünglichen Listenpreis von V4 Pro — und positioniert es damit mehrere Male günstiger als Gemini 3.1 Pro sowie um eine Größenordnung günstiger als GPT-5.x-Modelle bei vergleichbarer Leistungsfähigkeit. (OpenRouter)

Drittanbieter-Infrastrukturprovider bepreisen es ähnlich. Together AI bietet V4 Pro mit transparenter serverloser Preisgestaltung und Abrechnung für gecachten Input an und nennt etwa 2,10 $ pro 1M frische Input-Tokens, 0,20 $ pro 1M gecachte Tokens und 4,40 $ pro 1M Output-Tokens in einer 512K-Kontext-Stufe, mit Upgrade-Pfad auf den vollen 1M-Kontext bei dedizierten Deployments. (Together AI) Trotz vendorübergreifender Unterschiede bleibt das Muster gleich: V4 Pro ist eines der günstigsten Frontier-Grade-Modelle pro Token und unterstützt gleichzeitig echten 1M-Token-Kontext sowie starke Reasoning-Benchmarks.

Benchmarks und Leistung

DeepSeek V4 Pro erzielt im Vergleich zu Open-Source- und proprietären Modellen wettbewerbsfähige Ergebnisse in wichtigen Reasoning-, Coding- und Long-Context-Retrieval-Benchmarks.

Coding — auf Benchmarks wie LiveCodeBench wird für V4 Pro eine Genauigkeit von rund 93–94 % angegeben, womit es für praktische Software-Engineering-Aufgaben in derselben Liga wie Top-Closed-Modelle liegt. (DeepSeek)
Reasoning — auf GPQA Diamond und anderen hochschwierigen Suites erzielt V4 Pro Werte von über 90 % und übertrifft damit frühere DeepSeek-Generationen sowie viele Open-Source-Konkurrenten deutlich. (DeepSeek)
Long-Context-Retrieval — im Bereich von 1M Tokens erreicht V4 Pro in spezialisierten MRCR-(multi-range context retrieval)-Benchmarks Recall im niedrigen bis mittleren 80%-Bereich und übertrifft in mindestens einigen veröffentlichten Evaluierungen GPT-5.x und Claude Opus 4.x bei gleicher Kontextlänge. (DeepSeek)

DeepSeeks eigene Materialien betonen, dass V4 Pro bei Weltwissen- und agentischen Coding-Aufgaben mit Top-Closed-Modellen konkurrieren kann, bei bestimmten fortgeschrittenen Fähigkeiten jedoch noch etwas hinter den allerstärksten proprietären Systemen (z. B. Gemini 3.1 Pro, GPT-5.4) zurückbleibt. Die vom Anbieter veröffentlichten Zahlen sollten als Richtwerte verstanden werden, bis unabhängige Evaluierungen nachziehen.

V4 Pro vs. V4 Flash

V4 Pro ist die höherkapazitive Premium-Variante, abgestimmt auf maximale Reasoning-Qualität und komplexe Agent-Workflows; V4 Flash ist ein kleineres, schnelleres und günstigeres Modell für latenzkritische Workloads. Beide teilen sich dasselbe 1M-Token-Kontextfenster, aber Flash nutzt ein 284B-Parameter-MoE mit 13B aktiven Parametern und verzichtet damit auf einen Teil des Weltwissens und der schwierigen agentischen Leistungsfähigkeit zugunsten von Kosten und Durchsatz. (DeepSeek)

	V4 Pro	V4 Flash
Gesamtparameter	1.6T MoE	284B MoE
Aktiv pro Token	~49B	~13B
Kontextfenster	1M Tokens	1M Tokens
API-Input (ca.)	~0,435 $ / 1M	~0,14 $ / 1M
Am besten geeignet für	Schwerstes Reasoning, agentisches Coding, Entscheidungsunterstützung	Massenzusammenfassungen, leichte Assistenten, Aufgaben mit hohem Durchsatz

DeepSeek und Drittanbieter-Reviewer positionieren Flash als Standard für viele produktive Assistenten, während Pro für die rechenintensivsten Reasoning-, Coding- und High-Stakes-Entscheidungsunterstützungs-Pipelines reserviert ist. (DeepSeek)

Wichtige Features für Agents und Automatisierung

Mehrere architektonische Entscheidungen machen V4 Pro besonders geeignet für agentische und Automatisierungs-Szenarien:

Langer, günstiger Kontext. Das 1M-Token-Fenster plus aggressive KV-Cache-Komprimierung ermöglicht es Agents, lang laufende Interaktionshistorien, Multi-File-Codebasen und große Dokumentensammlungen ohne ständige Trunkierung beizubehalten. (DeepSeek)
Steuerbare Reasoning-Modi. Non-Think / Think High / Think Max geben Orchestratoren einen einfachen Regler — Routine-Schritte auf Non-Think, schwierige Verzweigungen auf Think High und kritische Übergänge auf Think Max routen — und halten so die Kosten begrenzt, während tiefes Nachdenken dort ermöglicht wird, wo es zählt. (DeepSeek)
Open Weights, Ihre Infrastruktur. Die MIT-Lizenz bedeutet, dass Teams V4 Pro auf eigenen GPU-Clustern oder Edge-Infrastruktur betreiben können — besonders attraktiv in Regionen oder Branchen mit Anforderungen an Datensouveränität. Die Dokumentation nennt die Kompatibilität mit prominenten Agent-Frameworks und Coding-Tools, einschließlich Anthropic-artiger Tool-APIs, Claude Code und anderer Agent-Stacks, die mit minimalen Änderungen an DeepSeek-Endpunkte angebunden werden können. (DeepSeek)

Bereitstellungsoptionen und Integrationen

V4 Pro ist auf mehreren Wegen zugänglich: direkt über DeepSeeks eigene API, über Infrastrukturprovider wie Together AI und DeepInfra sowie als herunterladbare Gewichte auf Hugging Face für Self-Hosting. Aggregatoren wie OpenRouter stellen V4 Pro außerdem über eine einheitliche API zusammen mit anderen Anbietern bereit, oft mit integriertem Load-Balancing über Upstream-Provider und veröffentlichten Uptime-Statistiken. (OpenRouter)

Together AI hebt die serverlose Nutzung bei 512K Kontext, reservierte Kapazitäten für dedizierte 1M-Kontext-Deployments und explizite Unterstützung für gecachte-Input-Bepreisung hervor, um Long-Context-Agents zu optimieren. DeepInfra bietet einen schlüsselfertigen Endpunkt unter dem Bezeichner deepseek-ai/DeepSeek-V4-Pro und positioniert das Modell für die unmittelbare Integration in bestehende LLM-Anwendungen und A/B-Tests neben anderen Backends. (Together AI)

Wettbewerbspositionierung gegenüber GPT, Claude und Gemini

V4 Pro will im Ökosystem das Modell für „Frontier-Grade, aber erschwinglich“ sein — also nahezu Frontier-Qualität mit deutlich niedrigeren Preisen und Open Weights verbinden. Unabhängige Reviewer schätzen, dass V4 Pro bei vergleichbaren Workloads etwa 10–12× günstiger als GPT-5.5 und mehrfach günstiger als Claude Opus und Gemini Pro ist, insbesondere bei Nutzung von Cached-Input-Abrechnung für wiederholte Prompts. (OpenRouter)

Benchmark-Tabellen zeigen, dass V4 Pro bei Spitzenwerten in Reasoning und Coding leicht hinter den absolut besten Closed Models zurückbleibt, aber die meisten Open-Source-Pendants übertrifft und eine überlegene Long-Context-Erinnerungsleistung bei vollen 1M Tokens bietet. Die Medienberichterstattung ordnet V4 Pro außerdem als wichtigen Schritt in Chinas Bemühungen ein, einen eigenständigen KI-Stack aufzubauen, einschließlich Optimierungen für heimische Hardware wie Huawei-Chips — ein geopolitisches Narrativ, das sich über die technische Geschichte legt. (DeepSeek)

Häufige Anwendungsfälle und Muster

Die am häufigsten hervorgehobenen Anwendungsfälle konzentrieren sich auf Long-Context-Reasoning, Engineering-Assistenz und Forschungsautomatisierung:

Code-Agents, die komplette Monorepos aufnehmen und über dateiübergreifende Abhängigkeiten schließen.
Document-Intelligence-Systeme, die große juristische oder finanzielle Korpora verarbeiten.
Research-Agents, die mehrstufige Literaturrecherchen und Synthesen über Hunderte von Dokumenten orchestrieren.

V4 Pro wird außerdem für Enterprise-KI-Assistenten, STEM-Tutoring und wissensintensive Analysen beworben — insbesondere dort, wo Teams eine fein abgestufte Kontrolle über Infrastruktur und Kosten wünschen. Für einfachere Chatbots, routinemäßige Zusammenfassungen oder latenzkritische Assistenten empfehlen viele Guides V4 Flash mit gelegentlicher Eskalation auf Pro für die schwierigsten Teilaufgaben. (DeepSeek)

Einschränkungen und Kompromisse

V4 Pro verdrängt nicht vollständig die allerbesten Closed Models. Berichte deuten darauf hin, dass Systeme wie GPT-5.4 und Gemini 3.1 Pro bei einigen modernsten Reasoning-, Multimodal- und Safety-Tooling-Fähigkeiten weiterhin führen — auch wenn der Abstand geringer ist als in früheren Generationen. DeepSeeks Dokumentation weist außerdem darauf hin, dass Long-Context-Recall zwar stark, aber bei 1M Tokens nicht perfekt ist und von sorgfältigem Prompting sowie Fensterverwaltung profitiert. (DeepSeek)

Wie bei anderen Open-Weight-Modellen müssen Produktionsteams beim Self-Hosting in ihre eigenen Sicherheits-, Compliance- und Monitoring-Layers investieren — DeepSeeks Stack konzentriert sich stärker auf rohe Leistungsfähigkeit und Kosten als auf vorgefertigte Policy-Frameworks. Schließlich können regionale Überlegungen rund um in China entwickelte KI, Hardware-Abhängigkeiten und Exportkontrollen die Einführung in einigen Unternehmen beeinflussen, selbst wenn die technische und wirtschaftliche Argumentation stark ist.

Strategische Erkenntnisse für Builder

Für Builder und Produktteams ist DeepSeek V4 Pro am besten als leistungsstarkes Long-Context-Arbeitspferd zu verstehen, das ernsthafte agentische Systeme, Code-Assistenten und Recherche-Tools zu einem Bruchteil der Kosten westlicher Frontier-Modelle antreiben kann. Seine Open-Weight-MIT-Lizenz eröffnet Deployments mit hoher Flexibilität — On-Prem, air-gapped oder Sovereign Cloud — die geschlossene SaaS-Anbieter nicht bieten können. (DeepSeek)

Die effektivste Strategie ist meist hybrid: V4 Flash für Alltagsassistenten und Massenoperationen einsetzen, auf V4 Pro für das schwierigste Reasoning oder Long-Context-Verzweigungen eskalieren und selektiv gegen GPT- oder Claude-APIs vergleichen, wenn deren einzigartige Tools, Ökosysteme oder Multimodal-Features den Aufpreis rechtfertigen.

Genau das ist der Anwendungsfall für modellagnostische, Multi-Agent-Infrastruktur. Die Model-Landschaft verändert sich schnell, und die erfolgreichen Plattformen sind diejenigen, die ein Modell wie V4 Pro für die Workloads einsetzen können, in denen es am besten ist — und für den Rest daran vorbeirouten — ohne den gesamten Stack neu zu architektieren. Wenn Sie auf einer solchen Grundlage aufbauen, erfahren Sie, wie die Open-Source-, Multi-Agent-Plattform Eigent es Ihnen ermöglicht, spezialisierte Modelle über reale Workflows hinweg zu orchestrieren.

Häufig gestellte Fragen

Was ist DeepSeek V4 Pro?

DeepSeek V4 Pro ist die High-End-Variante der V4-Modellfamilie von DeepSeek — ein Open-Weight Mixture-of-Experts-LLM mit 1,6 Billionen Parametern (~49B aktive Parameter pro Token) und 1M-Token-Kontextfenster, entwickelt für hochwertiges Reasoning und agentisches Coding. Es wird unter der MIT-Lizenz mit Gewichten auf Hugging Face veröffentlicht.

Wie viel kostet DeepSeek V4 Pro?

Auf DeepSeeks API und Aggregatoren wie OpenRouter liegt V4 Pro typischerweise bei etwa 0,435 $ pro Million Cache-Miss-Input-Tokens und 0,87 $ pro Million Output-Tokens, während gecachter Input deutlich günstiger ist. Das ist mehrere Male günstiger als Gemini 3.1 Pro und ungefähr eine Größenordnung günstiger als GPT-5.x-Modelle bei vergleichbarer Leistungsfähigkeit.

Was ist der Unterschied zwischen V4 Pro und V4 Flash?

Beide teilen sich ein 1M-Token-Kontextfenster. V4 Pro ist das Premium-Modell mit 1,6T Parametern (~49B aktiv), abgestimmt auf maximale Reasoning-Leistung und komplexe Agent-Workflows. V4 Flash ist ein kleineres Modell mit 284B Parametern (~13B aktiv), das schneller und günstiger ist und sich am besten für latenzkritische und durchsatzstarke Aufgaben eignet. Ein verbreitetes Muster ist Flash als Standard und Pro bei den schwierigsten Teilaufgaben.

Wie vergleicht sich DeepSeek V4 Pro mit GPT-5 und Claude?

V4 Pro wird als „Frontier-Grade, aber erschwinglich“ positioniert. Es übertrifft die meisten Open-Source-Pendants und bietet starke Long-Context-Erinnerung bei 1M Tokens, bleibt aber bei einigen Spitzenfähigkeiten in Reasoning und Multimodalität leicht hinter den allerbesten Closed Models (z. B. GPT-5.4, Gemini 3.1 Pro) zurück — bei etwa 10–12× niedrigeren Kosten als GPT-5.5 für vergleichbare Workloads.

Ist DeepSeek V4 Pro Open Source?

Ja. DeepSeek veröffentlicht V4 Pro als Open Weights unter der MIT-Lizenz, verfügbar auf Hugging Face für Self-Hosting, zusätzlich zum gehosteten Zugriff über DeepSeeks API und Anbieter wie Together AI, DeepInfra und OpenRouter.

Kann ich DeepSeek V4 Pro mit Eigent nutzen?

Ja. Eigent's modellagnostische, Multi-Agent-Architektur ermöglicht es Ihnen, Aufgaben über seine MCP-Tools und das Skills-Framework an V4 Pro zu routen — mit seinem 1M-Token-Kontext und den steuerbaren Reasoning-Modi für die schwersten Aufgaben, während günstigere Modelle für Routineaufgaben verwendet werden.

DeepSeek V4 Pro: Spezifikationen, Benchmarks, Preise und Anwendungsfälle für Agents

Ein 1,6T-Parameter Open-Weight-MoE mit 1M-Token-Kontext — Frontier-ähnliche Leistungsfähigkeit zu einem Bruchteil des Preises

Douglas Lai

Share to

Wer ist DeepSeek, und was ist V4 Pro?

Zentrale Spezifikationen und Architektur

Preise und Kontextökonomie

Benchmarks und Leistung

DeepSeek V4 Pro erzielt im Vergleich zu Open-Source- und proprietären Modellen wettbewerbsfähige Ergebnisse in wichtigen Reasoning-, Coding- und Long-Context-Retrieval-Benchmarks.

Coding — auf Benchmarks wie LiveCodeBench wird für V4 Pro eine Genauigkeit von rund 93–94 % angegeben, womit es für praktische Software-Engineering-Aufgaben in derselben Liga wie Top-Closed-Modelle liegt. (DeepSeek)
Reasoning — auf GPQA Diamond und anderen hochschwierigen Suites erzielt V4 Pro Werte von über 90 % und übertrifft damit frühere DeepSeek-Generationen sowie viele Open-Source-Konkurrenten deutlich. (DeepSeek)
Long-Context-Retrieval — im Bereich von 1M Tokens erreicht V4 Pro in spezialisierten MRCR-(multi-range context retrieval)-Benchmarks Recall im niedrigen bis mittleren 80%-Bereich und übertrifft in mindestens einigen veröffentlichten Evaluierungen GPT-5.x und Claude Opus 4.x bei gleicher Kontextlänge. (DeepSeek)

V4 Pro vs. V4 Flash

	V4 Pro	V4 Flash
Gesamtparameter	1.6T MoE	284B MoE
Aktiv pro Token	~49B	~13B
Kontextfenster	1M Tokens	1M Tokens
API-Input (ca.)	~0,435 $ / 1M	~0,14 $ / 1M
Am besten geeignet für	Schwerstes Reasoning, agentisches Coding, Entscheidungsunterstützung	Massenzusammenfassungen, leichte Assistenten, Aufgaben mit hohem Durchsatz

Wichtige Features für Agents und Automatisierung

Mehrere architektonische Entscheidungen machen V4 Pro besonders geeignet für agentische und Automatisierungs-Szenarien:

Langer, günstiger Kontext. Das 1M-Token-Fenster plus aggressive KV-Cache-Komprimierung ermöglicht es Agents, lang laufende Interaktionshistorien, Multi-File-Codebasen und große Dokumentensammlungen ohne ständige Trunkierung beizubehalten. (DeepSeek)
Steuerbare Reasoning-Modi. Non-Think / Think High / Think Max geben Orchestratoren einen einfachen Regler — Routine-Schritte auf Non-Think, schwierige Verzweigungen auf Think High und kritische Übergänge auf Think Max routen — und halten so die Kosten begrenzt, während tiefes Nachdenken dort ermöglicht wird, wo es zählt. (DeepSeek)
Open Weights, Ihre Infrastruktur. Die MIT-Lizenz bedeutet, dass Teams V4 Pro auf eigenen GPU-Clustern oder Edge-Infrastruktur betreiben können — besonders attraktiv in Regionen oder Branchen mit Anforderungen an Datensouveränität. Die Dokumentation nennt die Kompatibilität mit prominenten Agent-Frameworks und Coding-Tools, einschließlich Anthropic-artiger Tool-APIs, Claude Code und anderer Agent-Stacks, die mit minimalen Änderungen an DeepSeek-Endpunkte angebunden werden können. (DeepSeek)

Bereitstellungsoptionen und Integrationen

Wettbewerbspositionierung gegenüber GPT, Claude und Gemini

Häufige Anwendungsfälle und Muster

Die am häufigsten hervorgehobenen Anwendungsfälle konzentrieren sich auf Long-Context-Reasoning, Engineering-Assistenz und Forschungsautomatisierung:

Code-Agents, die komplette Monorepos aufnehmen und über dateiübergreifende Abhängigkeiten schließen.
Document-Intelligence-Systeme, die große juristische oder finanzielle Korpora verarbeiten.
Research-Agents, die mehrstufige Literaturrecherchen und Synthesen über Hunderte von Dokumenten orchestrieren.

Wer ist DeepSeek, und was ist V4 Pro?

Zentrale Spezifikationen und Architektur

Preise und Kontextökonomie

Benchmarks und Leistung

V4 Pro vs. V4 Flash

Wichtige Features für Agents und Automatisierung

Bereitstellungsoptionen und Integrationen

Wettbewerbspositionierung gegenüber GPT, Claude und Gemini

Häufige Anwendungsfälle und Muster

Einschränkungen und Kompromisse

Strategische Erkenntnisse für Builder