25. Mai 2026 · 12 Min. Lesezeit · Good Law

Warum Legal AI prüfen muss, ob eine Entscheidung noch geltendes Recht ist

Legal AIGood LawRechtsprechungRecherchezuverlässigkeit

Zu den gravierendsten Fehlern von Legal AI gehört nicht ein erfundenes Zitat, sondern ein echtes Zitat, das zu einer falschen rechtlichen Bewertung führt. Ein System kann eine authentische Entscheidung abrufen und ihre Existenz bestätigen und dennoch veraltete Rechtsberatung liefern, wenn es nicht prüft, ob die zitierte Entscheidung noch für die aktuelle Aussage trägt.

Die Zuverlässigkeitslücke, die Juristinnen und Juristen wirklich betrifft

Juristinnen und Juristen prüfen KI-Werkzeuge in der Kanzleipraxis oft zuerst nach einem einfachen Maßstab: Hat das System überhaupt eine echte Quelle genannt? Das ist wichtig, aber nur der erste Sicherheitscheck. Eine echte Entscheidung kann für die konkrete Frage dennoch eine unzureichende Autorität sein, wenn sie später eingeschränkt, aufgehoben oder durch eine höhere Instanz überholt wurde oder an eine Verfahrenslage gebunden war, die heute nicht mehr passt.

Diese Unterscheidung geht im Arbeitsalltag leicht unter, weil KI-Systeme auf flüssige Synthesen optimiert sind. Wirkt die Antwort kohärent, nennt bekannte Entscheidungen und formuliert sie juristisch präzise, gehen Nutzerinnen und Nutzer häufig davon aus, dass die Prüfung zum aktuellen Recht bereits abgeschlossen ist. In der Praxis liegt die eigentliche Frage oft auf der zweiten Ebene: Trägt diese Autorität die Aussage wirklich noch heute?

Für die juristische Praxis ist das kein Sonderfall. Es betrifft Beratungsschreiben, Verhandlungspositionen, Eilrechtsschutzstrategien, Due-Diligence-Notizen, Schriftsätze, interne Memos und Mandanten-Risikobeurteilungen. Eine überzeugende Antwort auf veralteter Autorität ist deutlich schwerer zu erkennen als eine offensichtliche Fehlantwort – weil sie häufig eine erste fachliche Prüfung unbemerkt bestehen kann.

Wie eine Legal-AI-Antwort zugleich echt und falsch sein kann

Ein typisches Muster in der Rechtsprechungsrecherche: Das System zieht die Leitentscheidung, mehrere einschlägige Entscheidungen unterer Instanzen und eine prozessuale Entscheidung heran, die die Frage scheinbar exakt in der Form des Nutzers abbildet. Jedes Zitat ist echt. Das Ergebnis wirkt deshalb besonders überzeugend.

Späteres Recht kann die Einordnung verändern. Eine neuere, maßgebliche Entscheidung kann die vertretene Theorie aufheben, den Rechtsbehelf enger fassen oder eine Vorfrage klären, die die frühere Entscheidung offen gelassen hat. Sucht die KI nicht aktiv nach dieser späteren Behandlung, kann sie eine historisch wertvolle, aber heute nicht mehr tragfähige Autorität als weiterhin geltendes Recht darstellen.

Ein niederländisches öffentliches Beispiel zeigt das deutlich. Im Didam II-Urteil, ECLI:NL:HR:2024:1661 (1) klärte der Hoge Raad die Rechtsfolgen der Nichteinhaltung der Didam-Regeln. Ein KI-System, das die frühere Didam-Rechtsprechung und späteres untergerichtliches Verfahrensmaterial findet, aber die Leitantwort des höchsten Gerichts nicht erkennt, kann eine Schlussfolgerung erzeugen, die zugleich gut belegt und materiell veraltet ist.

Ein verifiziertes Zitat ist nicht dasselbe wie eine verlässliche Autorität für die aktuelle Aussage.

Warum quellenbasierte Legal AI bei aktuellem Recht dennoch scheitert

Viele Rechtsteams erkennen inzwischen den Wert quellenbasierter KI. Retrieval ist deutlich besser als reines Modellgedächtnis, und verifizierte Zitate sind besser als unbelegte Prosa. Aber Quellenbasiertheit allein löst das Problem des aktuellen Rechts nicht.

Fünf Muster treten dabei immer wieder auf.

1. Existenzprüfung wird mit Rechtsgültigkeit verwechselt

Ein System kann wissen, dass eine ECLI existiert, eine Entscheidung aus einer offiziellen Quelle stammt oder ein Dokument aus einem vertrauenswürdigen Korpus geladen wurde. Das beweist nicht, dass die Autorität den rechtlichen Punkt noch trägt. Existenz, Herkunft und rechtliche Verlässlichkeit sind unterschiedliche Prüfungen.

2. Abruf folgt oft der Fragestellung des Nutzers

Fragt jemand nach einem bestimmten Rechtsbehelf oder Argument, ruft die Suche oft genau jene Entscheidungen ab, die dieselben Begriffe verwenden. Das ist nützlich, kann das System aber in die Argumentationslogik des Nutzers einschnüren. Gute juristische Recherche braucht oft den Gegenimpuls: die spätere Autorität zu finden, die zeigt, dass die formulierte Theorie nicht mehr trägt.

3. Neuheit ist nicht gleich Rangstärke

Eine neuere unterinstanzliche Entscheidung ist nicht automatisch stärker als ein älteres Leiturteil einer höheren Instanz. Eine aktuelle Kommentarseite ist kein Ersatz für eine offizielle Entscheidung. Eine spätere prozessuale Entscheidung kann deutlich weniger relevant sein als ein früheres Leiturteil zur Sache. Aktualität hängt im Recht von Rang, Behandlung und Passung zur Aussage ab – nicht nur vom Veröffentlichungsdatum.

4. Zwischen- und Verfahrensentscheidungen sind besonders riskant

Vorentscheidungsfragen, Zwischenurteile, Vorlagebeschlüsse, Schlussanträge von Generalanwältinnen und Generalanwälten sowie verfahrensrechtliche Beschlüsse sind oft hochrelevant – und leicht misszuverstehen. Sie erklären häufig die Entwicklung einer Frage, ohne die heutige Rechtsantwort vollständig zu liefern. Legal AI muss unterscheiden: Das ist Rechtsgeschichte, keine tragende aktuelle Stütze.

5. Kommentierung hilft beim Erkennen von Änderungen, darf das Recht aber nicht ersetzen

Fachblogs, juristische Updates und Praxismaterial können Änderungen schnell aufzeigen und ihre Bedeutung einordnen. Sie sind hilfreich. Sie ersetzen aber nicht die Primärrechtsprechung, die die Rechtslage tatsächlich ändert. Ein professioneller Legal-AI-Arbeitsprozess nutzt Kommentierung zur Einordnung, nicht als alleinige Grundlage, um Primärrecht zu verdrängen.

Das bessere Modell: Validierung des Rechtsstatus

Die Lösung ist nicht, ein Modell mit einer unscharfen Frage zu füttern wie: „Sind diese Entscheidungen noch anwendbar?“ Besser ist eine dedizierte Validierungsschicht zwischen Abruf und Synthese, die den Rechtsstatus prüft. Forschung zu selbstreflexiven, korrigierenden, wahrheitsorientierten und „Checker“-RAG-Arbeitsprozesse liefert dafür solide Ansätze (4) (5) (6) (7).

Diese Schicht sollte eine klare fachliche Frage beantworten: Trägt diese Autorität die Aussage heute noch – und wenn nicht, welche spätere Entscheidung oder Einschränkung ändert die Rechtslage?

In der Praxis bedeutet das, mehr zu prüfen als die Identität einer Zitation. Entscheidend ist die Einordnung der Behandlung, zum Beispiel:

Aktuell: Die Autorität trägt die Aussage in der genannten Form weiterhin.
Aktuell mit Einschränkungen: Die Autorität ist nutzbar, aber nur mit qualifizierender Ergänzung.
Nur historisch: Die Autorität ist Kontext- oder Verfahrensgeschichte, nicht die heutige Rechtsantwort.
Für diesen Punkt nicht mehr verlässlich: Die Aussage wurde später verworfen, aufgehoben oder überholt.
Nicht vollständig verifiziert: Der Status zum geltenden Recht lässt sich aus den vorliegenden Nachweisen nicht sicher bestimmen.

Diese Einordnung ist entscheidend, weil Juristinnen und Juristen mehr als fertige Antworten brauchen. Sie brauchen eine nachvollziehbare Recherchelage: Was wird übernommen, was gekennzeichnet, was ersetzt oder weiter zu qualifizieren ist.

Was verlässliche Legal AI anders machen muss

Validierung des Autoritätsstatus ist kein einzelnes Feature, sondern ein kontrollierter Kettenprozess.

Mit offiziellen Rechtsdaten beginnen

Offizielle Quellen sollten die erste Instanz bleiben. In der niederländischen Recherche bedeutet das, Quellen wie Rechtspraak Open Data (2) sowie die amtlichen Entscheidungsseiten einzubeziehen. Offizielle Metadaten helfen, Dokumenttyp, Verfahrensstand, Gericht und Datum zu verifizieren und in vielen Fällen formale Beziehungen zwischen Entscheidungen zu bestätigen (3).

Der praktische Mehrwert ist klar: Das System muss wissen, ob es sich um ein endgültiges Sachurteil, einen Zwischenschritt oder eine verfahrensrechtliche Entscheidung handelt, bevor es Aussagen als aktuelles Recht ausgibt.

Beziehungen zwischen Autoritäten nachverfolgen

Die Qualität juristischer Recherche steigt, wenn das System erkennt, wann eine Autorität eine andere beantwortet, einschränkt, abgrenzt oder überholt. Eine reine Liste verwandter Entscheidungen reicht nicht. Entscheidend ist das rechtliche Verhältnis.

Das ist besonders relevant bei sich entwickelnder Dogmatik. Ohne Beziehungsverständnis kann KI die Entwicklung eines Streitstoffs so behandeln, als hätten alle Dokumente denselben Gewichtungsgrad. Juristinnen und Juristen wissen, dass das nicht stimmt. Das System sollte es ebenfalls berücksichtigen.

Quellenbeschränkte Recherche für Aktualität nutzen

Offizielle Metadaten reichen nicht immer aus. Manchmal ist der schnellste Weg zu einer späteren Leitentscheidung oder verlässlichen Auslegung eine gezielte Suche in offiziellen und hochvertrauenswürdigen Rechtsquellen. Der Kern ist Disziplin: quelleingeschränkt, datumsbewusst und auf Rechtsänderungen fokussiert – statt pauschaler Webdurchmusterung.

Anders formuliert: Nicht „Welche Seiten nennen diesen Fall?“ ist die Frage. Richtig ist: „Welche offiziellen oder hochqualitativen Quellen zeigen, ob diese Autorität diese Frage heute noch bestimmt?“

Das Modell als Prüfer nutzen, nicht als freien Improvisator

Große Sprachmodelle können helfen, die Behandlung zu klassifizieren, wenn sie kuratierte Belege erhalten. Sie sind deutlich unzuverlässiger, wenn sie den Status aus Modellgedächtnis ableiten sollen. Der sichere Ansatz ist belegegebundenes Schließen: Das Modell darf das vorliegende Material auswerten, aber keine maßgebliche Autorität erfinden, die nicht in den bereitgestellten Belegen enthalten ist.

Diese Abgrenzung ist zentral für professionelle Prüfung. Juristinnen und Juristen brauchen den Weg von der Schlussfolgerung zurück zum Beleg – nicht einen undurchsichtigen Confidence-Wert.

Unsicherheit transparent machen statt Scheinsicherheit

Kein Legal-AI-System wird in jedem Mandat den Status zum geltenden Recht perfekt klären. Das ist kein Grund, Unsicherheit zu verschweigen. Es ist ein Grund, sie klar auszuweisen. Lässt sich der Status nicht verlässlich bestimmen, ist eine qualifizierte Vorbehaltsformulierung die richtige Ausgabe, nicht eine glatt formulierte Definitivantwort.

Für Juristinnen und Juristen ist klar markierte Unsicherheit hilfreich; verdeckte Unsicherheit ist riskant.

Warum das wichtiger ist als reine Halluzinationsdebatten

Ein großer Teil der öffentlichen Diskussion über KI-Zuverlässigkeit fokussiert auf Halluzinationen: erfundene Fälle, erfundene Zitate, erfundene Gesetzesauszüge. Diese Risiken sind real. Aktuelle Forschungsarbeiten zu Legal-AI-Zuverlässigkeit zeigen, warum auch quellenbasierte Systeme sorgfältig evaluiert werden müssen (8). Für die Praxis ist ein Fehler durch veraltete Autorität ebenso relevant, weil er auch bei ansonsten quellenbasierten Systemen unauffällig bleibt.

Eine Juristin oder ein Jurist, der eine fingierte Zitation prüft, erkennt den Fehler oft schnell. Eine echte, aber überholte Zitation wird unter Zeitdruck deutlich später bemerkt. Deshalb braucht die Good-Law-Validierung einen eigenen Platz in der Bewertung von Legal AI.

Was Juristinnen und Juristen bei KI-Anbietern und internen Teams fragen sollten

Kann das System Quellverifikation und Good-Law-Validierung sauber trennen?
Wie erkennt es, ob eine Entscheidung aufgehoben, eingeschränkt oder überholt wurde?
Unterscheidet es Verfahrens- und Zwischenentscheidungen korrekt von endgültigen Leitentscheidungen?
Welche offiziellen Quellen nutzt es, um Behandlung und Beziehungen zwischen Entscheidungen nachzuverfolgen?
Kann es transparent zeigen, warum eine Autorität als aktuell, eingeschränkt, historisch oder unsicher eingestuft wurde?
Was passiert, wenn der aktuelle Rechtsstatus nicht eindeutig verifizierbar ist?
Sind die Hinweise so klar, dass ein Jurist die Strategie anpassen oder die Prüfung eskalieren kann?

Diese Fragen sind oft wichtiger als das Modell-Label. Ein größeres oder schnelleres Modell löst das fachliche Problem nicht, wenn der Arbeitsprozess echte Zitate weiterhin mit verlässlicher aktueller Autorität verwechselt.

Der praktische Maßstab für Vertrauen in Legal AI

Juristinnen und Juristen brauchen mehr als ein KI-System, das lediglich modern klingt. Sie brauchen ein System, das zeigt, warum eine Entscheidung noch nutzbar ist, wo sich die Rechtslage geändert hat und wann die Antwort nur qualifiziert oder offen zu behandeln ist.

Das ist der eigentliche Übergang von generischer KI-Ausgabe zu professioneller Rechercheunterstützung: nicht nur abrufen und zusammenfassen, sondern prüfen, ob die zitierte Autorität die Aussage weiterhin trägt.

Die nächste Grenze für Vertrauen in Legal AI ist nicht, ob die Zitation echt ist. Sie ist, ob die Autorität für die aktuell behauptete Aussage verlässlich bleibt.

Quellen und weiterführende Lektüre

Fazit

Legal AI wird für Juristinnen und Juristen deutlich wertvoller, wenn sie den Abruf von Autoritäten nicht als Ende der Zuverlässigkeitskette versteht. Der entscheidende Schritt ist die Autoritätsstatusprüfung: die Frage, ob das zitierte Material aktuell, weiterhin maßgeblich und sicher für die konkrete Fragestellung verwendbar ist.

Genau dort entsteht der Wandel von einer plausiblen Assistenzfunktion zu einem System, das nach professionellen Standards verifiziert, hinterfragt und verantwortungsvoll genutzt werden kann.