Modellvergleich 2026 für OpenClaw-Workflows

Die richtige Modellwahl für OpenClaw: ein datenbasierter Guide

OpenClaw ist der mit Abstand meistgenutzte AI-Agent auf OpenRouter (290 Milliarden Tokens) und unterstützt über 14 Anbieter direkt. Die Wahl des richtigen Modells – oder besser: der richtigen Modell-Kombination – entscheidet über Qualität, Geschwindigkeit und Kosten eurer Coding-Workflows. Dieser Guide fasst verifizierte Preise, aktuelle Benchmarks und Community-Erfahrungen zusammen, damit ihr die optimale Konfiguration für euren Stack findet. Stand: 21. Februar 2026.


Was OpenClaw wirklich ist – und was nicht

OpenClaw (GitHub: openclaw/openclaw, ~215K Stars, MIT-Lizenz) ist ein universeller, autonomer AI-Agent – kein reines Coding-Tool wie Cursor oder Cline. Er läuft lokal, verbindet sich mit Messaging-Plattformen (WhatsApp, Telegram, Discord, Slack, Signal, iMessage, Teams) und kann Dateien lesen/schreiben, Shell-Commands ausführen, im Web browsen, Kalender verwalten und Smart-Home-Geräte steuern. Coding ist eine seiner Fähigkeiten, nicht sein einziger Zweck.

Die Geschichte ist turbulent: November 2025 als „Clawdbot" gestartet, im Januar 2026 wegen Anthropic-Trademark-Beschwerden zu „Moltbot" umbenannt, drei Tage später dann „OpenClaw". Am 14. Februar 2026 gab Gründer Peter Steinberger (PSPDFKit-Founder) bekannt, zu OpenAI zu wechseln – das Projekt ging an eine Open-Source-Foundation über. Die aktuelle Version ist v2026.2.19-2, mit Versioning im YYYY.M.D-Format.

OpenClaw ist modellagnostisch und unterstützt nativ: Anthropic, OpenAI, Google, xAI (Grok), Moonshot (Kimi), MiniMax, Z.AI (GLM), OpenRouter, Amazon Bedrock, Ollama, LM Studio, vLLM und jedes OpenAI-kompatible Endpoint. Die Konfiguration erfolgt über ~/.openclaw/openclaw.json mit Primary/Fallback-Ketten:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-5",
        "fallbacks": ["openai/gpt-5.2", "google/gemini-3-flash"]
      }
    }
  }
}

Wichtige bekannte Bugs: Die Failover-Logik hat mehrere dokumentierte Probleme. Issue #5744 zeigt, dass ein Rate-Limit bei einem einzelnen Modell den gesamten Provider in Cooldown versetzt – auch wenn andere Modelle desselben Anbieters noch Quota haben. Issue #19249 dokumentiert, dass Model-Failover zur Laufzeit nicht aktiviert wird – Agents bleiben am rate-limitierten Provider hängen, statt auf konfigurierte Fallbacks zu wechseln. Der Workaround: Fallbacks immer von verschiedenen Providern konfigurieren, nicht verschiedene Modelle desselben Anbieters. Und: nach einem Gateway-Restart funktioniert Failover wieder.


Alle aktuellen Modelle im Vergleich: Preise, Benchmarks und Eignung

Anthropic Claude – der Agentic-Coding-König

Claude dominiert die Coding-Agent-Szene. Claude Opus 4.6 (veröffentlicht 5. Februar 2026) erreicht 80,8 % auf SWE-bench Verified und 65,4 % auf Terminal-Bench 2.0. Die Sonnet-4.6-Variante (17. Februar 2026) folgt dicht mit 79,6 % SWE-bench. Besonders bei Computer-Use-Tasks (OSWorld: 72,7 %) und Tool-Orchestrierung (τ²-bench: 91,9 %) ist Claude klar vorn.

Modell Input/MTok Output/MTok Kontext SWE-bench
Claude Opus 4.6 $5,00 $25,00 200K (1M Beta) 80,8 %
Claude Sonnet 4.6 $3,00 $15,00 200K (1M Beta) 79,6 %
Claude Haiku 4.5 $1,00 $5,00 200K

Batch-API gibt 50 % Rabatt; Prompt-Caching reduziert Cache-Reads auf 0,1× des Input-Preises. Die 1M-Token-Kontextfenster sind über einen Beta-Header verfügbar.

Stärken: Beste SWE-bench-Scores, überlegene Computer-Use-Fähigkeiten, starke Selbstkorrektur, exzellente Tool-Koordination. Schwächen: Opus 4.6 verbraucht ~5× mehr Tokens pro Task als sein Vorgänger durch Adaptive Thinking, ist langsamer als Sonnet, und „Claudisms" (unerwünschte eigenständige Änderungen) sind ein häufiger Community-Complaint. Bei $5/$25 pro MTok zudem deutlich teurer als Gemini.

OpenAI GPT / Codex – das ausgereifteste Ökosystem

OpenAI bietet das umfangreichste Modell-Portfolio. Der GPT-5.2-Codex ist speziell für agentisches Coding optimiert, mit Context-Compaction für lange Sessions. Das Codex-Ökosystem (CLI, IDE-Extension, Cloud, macOS-App) ist das ausgereifteste Coding-Agent-Tooling am Markt.

Modell Input/MTok Output/MTok Kontext SWE-bench
GPT-5.2 $1,75 $14,00 196K
GPT-5.2-Codex $1,75 $14,00 196K
GPT-4.1 $2,00 $8,00 1M
o3 $2,00 $8,00 200K 69,1 %
o4-mini $1,10 $4,40 200K 68,1 %
GPT-5 mini $0,25 $2,00 196K
GPT-5 nano $0,05 $0,40 196K

Prompt-Caching spart bei GPT-5-Familie 90 %, bei GPT-4.1 75 %. GPT-4.1 sticht mit seinem 1M-Token-Kontextfenster bei nur $2/$8 heraus – ideal als kostengünstiger Large-Context-Worker.

Stärken: Breites Modellspektrum von $0,05 (nano) bis $21 (pro) pro MTok, ausgereiftes Codex-CLI-Tooling, o4-mini bietet ~10× Kostenersparnis vs. o3 bei naher Performance. Schwächen: Reasoning-Tokens werden als Output berechnet, sind aber nicht sichtbar – echte Kosten können deutlich höher sein als erwartet. GPT-5-Kontextfenster (196K) kleiner als GPT-4.1 (1M).

Google Gemini – Ja, Gemini 3.1 Pro existiert

Gemini 3.1 Pro wurde am 19. Februar 2026 veröffentlicht – also vor nur zwei Tagen. Es ist die korrekte aktuelle Bezeichnung. Die Versionshistorie: 1.0 → 1.5 → 2.0 → 2.5 → 3 Pro (Nov 2025) → 3 Flash (Dez 2025) → 3.1 Pro (Feb 2026). Das Modell erreicht 80,6 % auf SWE-bench Verified und führt bei ARC-AGI-2 mit 77,1 % – deutlich vor Claude Opus 4.6 (68,8 %).

Modell Input/MTok Output/MTok Kontext SWE-bench
Gemini 3.1 Pro $2,00 (≤200K) / $4 (>200K) $12,00 / $18 1M 80,6 %
Gemini 3 Pro $2,00 / $4,00 $12,00 / $18 1M 76,2 %
Gemini 3 Flash $0,50 $3,00 1M 78,0 %

Gemini 3 Flash hat einen kostenlosen Tier in der Gemini API. Das 1M-Kontextfenster ist bei Gemini stabil (nicht Beta wie bei Claude). Batch-API bietet 50 % Rabatt.

Stärken: Bestes Preis-Leistungs-Verhältnis der Frontier-Modelle ($2/$12 vs. Claude Opus $5/$25), stabiles 1M-Kontextfenster, beste Tool-Koordination (MCP Atlas: 69,2 %), 105 Tokens/Sekunde. Gemini 3 Flash bei 78 % SWE-bench für nur $0,50/$3 ist ein enormer Wert. Schwächen: Alle Gemini-3-Modelle sind noch im Preview-Status (nicht GA), hohe Time-to-First-Token (32s für 3.1 Pro), deutlich schwächer bei Expert-Tasks (GDPval-AA: 1317 Elo vs. Claude 1633).

xAI Grok – die Überraschung beim Preis-Leistungs-Verhältnis

Grok hat sich rapide entwickelt: Grok 4 (Juli 2025), Grok 4.1 (November 2025), Grok Code Fast 1 (Dezember 2025) und jetzt Grok 4.20 Beta (17. Februar 2026). Die bemerkenswerteste Entwicklung: Grok Code Fast 1 dominiert OpenRouter bei Coding-Tokens mit 57,6 % Marktanteil – Entwickler lieben die Kombination aus Geschwindigkeit und Preis.

Modell Input/MTok Output/MTok Kontext SWE-bench
Grok 4 $3,00 $15,00 256K 72–75 %
Grok 4.1 Fast $0,20 $0,50 2M
Grok Code Fast 1 $0,20 $1,50 256K ~70,8 %
Grok 4.20 Beta TBD TBD TBD TBD

Grok 4 Fast/4.1 Fast bieten das größte Kontextfenster aller Modelle (2M Tokens) bei absurd günstigen $0,20/$0,50 pro MTok. Grok 4.20 Beta ist noch im Early Access ohne veröffentlichte Benchmarks.

Stärken: Extrem kosteneffizient (Grok 4.1 Fast: $0,20/$0,50), 2M-Kontext, OpenAI-kompatible API, solide Coding-Performance. Schwächen: Grok 4 ist ein Always-Reasoning-Modell (langsamer), weniger reifes Coding-Agent-Ökosystem, Content-Safety-Bedenken, Wissenscutoff November 2024.

Kimi K2.5, Qwen3-Coder, GLM-5, DeepSeek – die Open-Source-Alternativen

Die chinesischen Modelle haben die Lücke zu den Frontier-Modellen dramatisch geschlossen. GLM-5 hält den SWE-bench-Rekord unter allen Open-Source-Modellen (77,8 %), und Kimi K2.5 erreicht beeindruckende 76,8 %.

Modell Lizenz Parameter Input/MTok Output/MTok SWE-bench
GLM-5 (Z.AI) MIT 744B/40B aktiv $1,00 $3,20 77,8 %
Kimi K2.5 (Moonshot) Mod. MIT 1T/32B aktiv $0,60 $2,50 76,8 %
DeepSeek V3.2 MIT 685B/37B aktiv $0,28 $0,42 73,1 %
Qwen3-Coder-480B Apache 2.0 480B/35B aktiv via Alibaba via Alibaba 67–69,6 %
Qwen3-Coder-Next Apache 2.0 80B/3B aktiv 70,6 %

DeepSeek V3.2 sticht durch extreme Preisaggressivität heraus: $0,28/$0,42 pro MTok – das ist ~95 % günstiger als GPT-5.2 und ~90 % günstiger als Claude Sonnet. Mit Cache-Hit sogar nur $0,028 Input. Die Web-App ist komplett kostenlos.

GLM-5 ist bemerkenswert: entwickelt auf Huawei Ascend 910B-Chips (null NVIDIA-Abhängigkeit), MIT-lizenziert, niedrigste Halluzinationsrate aller getesteten Modelle. Zhipu AI ging am 8. Januar 2026 in Hongkong an die Börse ($558M raised). Qwen3-Coder-Next (Februar 2026) erreicht Near-480B-Performance mit nur 3B aktiven Parametern – ideal für lokale Deployment.


OpenRouter als Routing-Layer: So funktioniert es wirklich

OpenRouter ist ein Unified API Gateway mit ~500 Modellen von allen großen Anbietern über eine einzige, OpenAI-kompatible API. OpenClaw ist die #1 App auf OpenRouter nach Token-Volumen. Der entscheidende Punkt für die Community:

OpenRouter schlägt keinen Aufpreis auf Token-Preise auf. Die Modellpreise werden 1:1 vom Provider durchgereicht. Stattdessen erhebt OpenRouter eine 5,5 % Platform Fee beim Kauf von Credits (5,0 % bei Crypto-Zahlung). Bei BYOK (eigene API-Keys) fallen 5 % Usage Fee an. Effektive Gesamtkosten bei $1.000 Modellnutzung: ~$1.055.

Die Failover-Funktionalität arbeitet auf zwei Ebenen: automatisches Provider-Level-Routing (Monitoring im 30-Sekunden-Fenster, transparenter Fallback bei Fehlern) und konfigurierbares Model-Level-Fallback über den models-Parameter. OpenRouter priorisiert stabile Provider, gewichtet günstigere höher, und nutzt den Rest als Fallback. Die zusätzliche Latenz beträgt nur ~25ms.

Für OpenClaw-Nutzer besonders relevant: Da OpenClaws eigenes Failover bekanntermaßen buggy ist (Issues #5744, #19249), kann OpenRouter als zusätzliche Failover-Schicht dienen. Konfiguriert man OpenClaw mit OpenRouter als Provider und nutzt dessen models-Array, erhält man Provider-Level-Failover „gratis" – unabhängig von OpenClaws eigenem (defektem) Fallback-Mechanismus.

Die beliebtesten Modelle auf OpenRouter nach wöchentlichem Token-Volumen sind aktuell: MiniMax M2.5 (3,24T), Kimi K2.5 (1,24T), GLM 5 (1,03T), Gemini 3 Flash (816B) und DeepSeek V3.2 (738B).


Was die Community wirklich empfiehlt

Der stärkste Konsens aus Reddit (r/LocalLLaMA, r/ClaudeAI, r/cursor, r/vibecoding), GitHub-Discussions und Tool-Blogs lässt sich in einem Satz zusammenfassen: „The best LLM for coding in 2026 isn’t a model. It’s a stack."

Die Community-Weisheit hat sich klar zu einem Multi-Model-Ansatz entwickelt, bei dem verschiedene Modelle für verschiedene Phasen eingesetzt werden. Für die Planungs- und Architekturphase empfiehlt sich ein Modell mit großem Kontext und starkem Reasoning – Gemini 3.1 Pro (1M Kontext, $2/$12) oder Claude Opus 4.6 für maximale Tiefe. Für das aktive Coding im Alltag funktioniert ein schnelles, kosteneffizientes Modell am besten: Claude Sonnet 4.6, Gemini 3 Flash oder GPT-5 mini. Für komplexes Debugging und Refactoring wird auf Premium-Modelle eskaliert: Claude Opus 4.6 oder GPT-5.2-Codex. Code Review und Testing können mit mittleren Modellen erledigt werden.

Ein konkreter, oft empfohlener Community-Workflow: „Ich nehme mein Repo zu Gemini, lasse dort Instruktionen für Claude schreiben, und gebe es dann an Claude. Das kostet mehr Tokens, aber es klappt meist beim ersten Mal." Ein anderer verbreiteter Ansatz ist die „BMAD-Methode" – Gemini Pro mit einem Custom-Gem für Brainstorming und PRD-Erstellung, dann Claude Code für die eigentliche Implementierung.

Empfohlene OpenClaw-Konfiguration

Basierend auf Community-Feedback und den bekannten OpenClaw-Failover-Bugs hier eine praxiserprobte Konfiguration:

  • Primary: anthropic/claude-sonnet-4-6 – bester Allrounder, zuverlässiges Instruction Following, 79,6 % SWE-bench

  • Secondary (komplexe Tasks): google/gemini-3.1-pro – 1M Kontext, 80,6 % SWE-bench, günstiger als Claude Opus

  • Fallback (Budget/Rate-Limits): deepseek/deepseek-v3.2 oder xai/grok-code-fast-1 – 10–50× günstiger, solide Performance

  • Nano-Tasks: openai/gpt-5-nano ($0,05/$0,40) für triviale Aufgaben

Kritisch: Fallbacks immer von verschiedenen Providern wählen, nie mehrere Modelle desselben Anbieters – wegen OpenClaws Provider-Level-Cooldown-Bug. Alternativ: OpenRouter als einzigen Provider konfigurieren und dort die Model-Fallback-Chain nutzen.

Kosten-Realitätscheck

Die Community berichtet von $20–200/Monat bei normalem Einsatz. Ein User meldete $350 an einem einzigen Tag, als er unachtsam ein Premium-Modell als Default ließ. Die wichtigsten Sparstrategien: Prompt-Caching aktivieren (spart 50–90 %), ein günstiges Modell als Default setzen und nur bei Bedarf eskalieren, Token-Verbrauch im OpenClaw-Dashboard überwachen (openclaw models status), und Batch-API nutzen wo möglich (50 % Rabatt bei allen großen Anbietern).


Die große Benchmark-Tabelle (Februar 2026)

Modell SWE-bench Preis In/Out (/MTok) Kontext Kosten-Effizienz
Claude Opus 4.6 80,8 % $5 / $25 200K–1M ★★☆☆☆
Gemini 3.1 Pro 80,6 % $2 / $12 1M ★★★★☆
Claude Sonnet 4.6 79,6 % $3 / $15 200K–1M ★★★☆☆
Gemini 3 Flash 78,0 % $0,50 / $3 1M ★★★★★
GLM-5 77,8 % $1 / $3,20 200K ★★★★☆
Kimi K2.5 76,8 % $0,60 / $2,50 256K ★★★★☆
DeepSeek V3.2 73,1 % $0,28 / $0,42 128K ★★★★★
Grok 4 72–75 % $3 / $15 256K ★★★☆☆
Grok Code Fast 1 ~70,8 % $0,20 / $1,50 256K ★★★★★
Qwen3-Coder-Next 70,6 % Self-hosted 256K–1M ★★★★★
o3 69,1 % $2 / $8 200K ★★★☆☆

Fazit: drei Strategien für drei Budgets

Die Modelllandschaft im Februar 2026 hat sich zu einem Käufermarkt entwickelt. Die Qualitätslücke zwischen Frontier-Modellen (Claude, Gemini, GPT) und Open-Source-Alternativen (GLM-5, Kimi K2.5, DeepSeek) ist auf wenige Prozentpunkte geschrumpft, während die Preisunterschiede Größenordnungen betragen.

Für maximale Qualität ist die Kombination aus Claude Sonnet 4.6 (Alltag) + Gemini 3.1 Pro (große Kontexte, Planung) + Claude Opus 4.6 (schwierige Bugs) der aktuelle Sweet Spot. Geschätzte Kosten: $100–300/Monat bei aktivem Einsatz.

Für optimale Kosten-Leistung schlägt Gemini 3 Flash ($0,50/$3, 78 % SWE-bench) als Primary mit GLM-5 oder Kimi K2.5 als Secondary kaum zu übertreffendes Value. Geschätzte Kosten: $20–80/Monat.

Für Minimalbudget bieten DeepSeek V3.2 ($0,28/$0,42) und Grok Code Fast 1 ($0,20/$1,50) die beste Performance unter $1/MTok. Kombiniert mit Gemini Flash Free-Tier und GPT-5 nano ($0,05/$0,40) kommt man auf unter $10/Monat – bei immer noch 70+ % SWE-bench-Performance. Und wer es wirklich kostenlos will: Qwen3-Coder-Next lässt sich lokal auf Consumer-Hardware betreiben und erreicht 70,6 % SWE-bench.

Der wichtigste Tipp bleibt: Behandelt Modelle als Werkzeugkasten, nicht als Monolith. Kein einzelnes Modell ist für alle Tasks optimal. Konfiguriert eure OpenClaw-Fallback-Chain bewusst über mehrere Provider hinweg, nutzt OpenRouter als zusätzliche Failover-Schicht, und überwacht euren Token-Verbrauch – denn der größte Kostenfaktor ist ein vergessenes Premium-Modell als Default.

1 „Gefällt mir“

Dankeschön für die Auflistung und den Erklärungen dazu :ok_hand::+1:

1 „Gefällt mir“

Sehr gerne @HeinoFecht und herzlich willkommen in der Community.