Codex 5.3 vs. Claude Code - Warum ich zu OpenAI gewechselt bin

Leute, ich muss hier mal was loswerden. Ich war monatelang Hardcore-Claude-Code-User. Jeden Tag im Terminal, hat auch gut funktioniert. Aber seit ich die Codex App auf meinem Mac installiert habe, ist für mich eine komplett neue Welt aufgegangen.

Kurzer Kontext für alle die es noch nicht kennen: OpenAI hat Anfang Februar 2026 eine native macOS Desktop-App für Codex rausgebracht, die es erlaubt, mehrere KI-Coding-Agents parallel laufen zu lassen. Das ist kein aufgebohrtes Chat-Interface. Das ist eine richtige Kommandozentrale für autonomes Coding.

Was mich komplett geflasht hat:

Die App organisiert Threads nach Projekten, man kann Diffs inline reviewen, direkt committen und Pull Requests erstellen – alles ohne ein anderes Tool aufzumachen. Jeder Thread hat sein eigenes Terminal zum sofort Testen. Und das Beste: die Agents arbeiten in isolierten Git-Worktrees, sodass sie sich nie gegenseitig Merge-Konflikte verursachen.

Ich starte morgens drei, vier Agents gleichzeitig – einer refactored eine Komponente, einer schreibt Tests, einer fixt ein Issue aus Linear – und die arbeiten einfach. Parallel. Autonom. Ich mach mir nen Kaffee und komme zurück zu fertigen PRs.

Der Unterschied zu Claude Code für mich:

Mit Claude Code war ich immer im Loop. Das hat Spaß gemacht, klar, aber es war halt interaktiv – ich war die ganze Zeit dabei. Die Codex App ist eher als Agent-„Kommandozentrale“ konzipiert – ich delegiere Aufgaben und die werden abgearbeitet. Fire-and-forget. Für meinen Workflow ist das ein Gamechanger, weil ich parallel an anderen Sachen arbeiten kann.

Preislich ist es auch attraktiv: Die App ist in ChatGPT Plus für 20$/Monat enthalten, ich nutze allerdings den 200$ Pro-Account, da ist einiges mehr an Nutzung drin. Für den ersten Test reicht die 20$ Version aber erstmal :wink:

Was die App von der CLI unterscheidet:

Die CLI ist natürlich auch stark, aber die Desktop-App bringt drei Sachen mit, die das nochmal auf ein anderes Level heben: Erstens ein visuelles Interface für Skills – das sind wiederverwendbare Workflow-Bundles für bestimmte Aufgaben. Zweitens Automations, mit denen Codex eigenständig wiederkehrende Tasks erledigt wie Issue-Triage oder CI-Failure-Summaries. Und drittens Session-Continuity – History und Konfiguration syncen nahtlos zwischen CLI, IDE-Extension und Desktop-App.

Das Modell dahinter ist der eigentliche Wahnsinn:

GPT-5.3-Codex (seit 5. Februar 2026) ist laut OpenAI das erste Modell, das maßgeblich an seiner eigenen Entstehung mitgewirkt hat. Es ist 25% schneller als der Vorgänger und setzt den State-of-the-Art auf SWE-Bench Pro. Es unterstützt Mid-Turn-Steering, sodass Kurskorrekturen den bisherigen Fortschritt nicht zerstören.

Mein Best-Practice-Tipp:

Der absolute Cheat Code ist, einen guten Custom Prompt dahinter zu setzen. Hier ist der Prompt, den ich nutze und der bei mir den größten Unterschied gemacht hat:

CODEX 5.3 — AGENTIC WORKFLOW (STRICT)

GOAL: [KURZES ZIEL + AKZEPTANZKRITERIEN]

RULES

Follow agent order + loop exactly. No skipping.

Work in small, safe diffs. Keep project buildable/runnable.

Record decisions + assumptions. Prefer primary sources when researching.

AGENTS (ORDER + RESPONSIBILITIES)

RESEARCHER

Clarify unknowns, constraints, interfaces, and best practices.

Gather up-to-date references (links + dates).

Output: “Research Brief” (key facts, risks, open questions, sources).

ARCHITECT

Propose architecture/options, pick one, justify.

Define modules, data flow, APIs, config, error handling, security.

Output: “Architecture Spec” (diagram-as-text, file tree, interfaces, tech decisions).

BUILDER

Implement per spec.

Create/modify code, tests, configs, scripts.

Output: working implementation + minimal tests + updated docs.

VALIDATOR

Verify against acceptance criteria, run/build/tests, lint, security sanity checks.

Output: “Validation Report” (pass/fail, exact failures, reproduction steps).

If implementation issues → send to BUILDER with actionable fixes.

If spec/architecture flawed → send to ARCHITECT (who may re-call RESEARCHER).

LOOPRepeat 2→3→4 until VALIDATOR = PASS.

FINALIZATION (ONLY AFTER PASS)

Update README: setup, usage, config, examples, troubleshooting.

Update CHANGELOG: version + bullet summary.

Create clean git commits with meaningful messages.

GITHUB PUSH GATE

STOP and ASK: “Ready to push to GitHub? (yes/no)”

Never push without explicit “yes”.

Probiert’s aus und berichtet. Bin mega gespannt auf eure Erfahrungen mit der App.

With love,
Dennis :wink:

Danke dass du deine Erfahrungen mit uns teilst!

Hast du mal mit der Claude App, Cowork und Code, auf deinem Mac gearbeitet?

1 „Gefällt mir“

Ja na klar, ich bin schon sehr lange Hardcore-User bei Claude. Ich teile gleich mal hier meinen Agentic-workflow in CC. ich habe hier einen Beitrag darüber geschrieben :

Schreibst du den “Goal und Akzeptanzkriterien Teil” dann vorher selbst bzw. optimierst den mit KI?
Weil der Teil ja für ein gutes Alignment total wichtig wäre, oder?

Ich überlege mal ein Evaluationstool zu schreiben, um verschiedene AGENTS.md miteinander vergleichen zu können. Um objektiver sagen zu können: “Variante B ist deutlich besser als Variante A”

1 „Gefällt mir“

Gute Frage! Lass mich das mal aufdröseln, wie das im GodMode tatsächlich abläuft:

Du gibst im Grunde nur das Goal vor — also was du willst. Zum Beispiel: „Ich brauche User Authentication mit JWT“. Das war’s erstmal von deiner Seite.

Akzeptanzkriterien schreibst du nicht zwingend selbst. Du kannst welche mitgeben, wenn du sehr genaue Vorstellungen hast, aber im Normalfall übernimmt das der @architect. Der ist quasi der erste richtige Entscheider in der Kette. Er analysiert dein Goal, entscheidet ob er vorher noch den @researcher losschickt (z.B. wenn eine Library oder Technologie evaluiert werden muss), und definiert dann das High-Level-Design inklusive der Akzeptanzkriterien.

Der Flow sieht vereinfacht so aus:

Du: „Baue Feature X“ Orchestrator: Analysiert, bestimmt Version, legt Report-Ordner an → Optional: @researcher macht erst Research (neue Tech, Libraries etc.) → @architect erstellt Design + Akzeptanzkriterien → Bei API-Änderungen: @api-guardian prüft Breaking Changes → @builder implementiert nach Architect-Spec → @validator UND @tester prüfen parallel (Code Quality + UX Quality) → (hier ggf zurück zu @builder)@scribe dokumentiert alles.

Du trinkst Kaffee. (und bezahlst Token :rofl:

Zu dem Evaluationstool: klingt ultra spannend! Verschiedene AGENTS.md- gegeneinander benchmarken zu können wäre ein Mehrwert — nicht nur für GodMode, sondern für jeden, der mit Agent-Architekturen arbeitet.

Wenn du da Bock drauf hast: Mach direkt ein GitHub-Repo auf, ich bin sofort dabei.

Lass uns das zusammen bauen! :star_struck:

1 „Gefällt mir“

Wenn die Token nicht wären, würde man noch mal so viel schaffen… :joy::joy::joy:

Grundsätzlich ist der Godmode sehr angenehm.

1 „Gefällt mir“

Okay, klingt in der Theorie erstmal gut. In der Praxis funktioniert der Prompt von oben bei mir nicht so gut, nutzt bei mir auch keine Subagents. @researcher, @architect, @api-guadian, etc. kling ja eher nach Sub Agents. @scribe z.b. taucht im Prompt oben gar nicht auf^^

Ja, gerne. Ich hab ein erstes Repository aufgesetzt und einen ersten Rundumschlag gemacht. Idee wäre erstmal ein CLI-Tool und eine einfache lokale WebUI zu bauen. Die Idee wäre erstmal, dass man Benchmarks und Tasks definieren kann und ein Agent mit der AGENTS.md Anweisung die Aufgaben in einer eigenen Runtime umsetzt. Dann gibt es Artefakte (Screenshots, Code, Metriken etc.), die bewertet werden müssen, am Besten mit einer Score, damit man dann verschiedene Setups vergleichen kann.

Hier mal ein erster Aufriss:

Kannst gerne mit bauen, mit denken :smiley:

1 „Gefällt mir“