Waarom Legal AI moet toetsen of een uitspraak nog geldend recht draagt
Een van de grootste risico’s van Legal AI is niet een verzonnen citaat. Veel ingrijpender is een echte, controleerbare bron die toch tot een foutieve conclusie over het geldende recht leidt. Een systeem kan een authentieke uitspraak ophalen, bevestigen dat die bestaat, en nog steeds een juridisch verouderd antwoord geven als het niet nagaat of de bron nog steeds van toepassing is op de stelling.
De betrouwbaarheidskloof waar juristen echt op letten
In de praktijk starten juristen bij Legal AI vaak met de basisvraag: is de bron echt? Dat is terecht, maar het is slechts de eerste stap. Een juiste bron kan nog steeds onvoldoende gezag hebben voor de actuele vraag wanneer die is beperkt, vernietigd, ingehaald of contextueel achterhaald.
Dat onderscheid blijft lastig, omdat AI-systemen geoptimaliseerd zijn op vloeiende, overtuigende tekst. Als een antwoord coherent klinkt, met bekende termen werkt en in een juridisch klinkende stijl is geformuleerd, lijkt de onderliggende analyse vaak compleet. In de praktijk is de kernvraag meestal genuanceerder: ondersteunt deze bron de stelling nog steeds?
Voor de praktijk is dit geen technisch randgeval. Het raakt adviesbrieven, onderhandelingsposities, kortgedingstrategieën, due diligence-rapportages, processtukken, interne memo’s en risicobeoordelingen richting cliënt. Een ogenschijnlijk sluitend antwoord op verouderd gezag is moeilijker te ontdekken dan een duidelijke fout, omdat het vaak de eerste review passeert.
Hoe Legal AI tegelijk juist en onjuist kan zijn
Denk aan een bekend patroon in juridisch onderzoek. Het systeem vindt een kernuitspraak, aanvullende lagere jurisprudentie en een procedurebeslissing die exact lijkt aan te sluiten op de vraag van de gebruiker. Iedere bron is op zichzelf vaak controleerbaar.
Maar daarna is er vaak nieuw recht: een latere einduitspraak die eerdere uitgangspunten terugdraait, de remedie versmalt of een essentiële voorvraag anders beantwoordt. Als de AI die vervolgontwikkeling niet actief meeneemt, kan zij een historisch juiste bron presenteren alsof deze nog richtinggevend is.
Een Nederlands voorbeeld maakt dat concreet. In Didam II, ECLI:NL:HR:2024:1661 (1) verduidelijkte de Hoge Raad de rechtsgevolgen van niet-naleving van de Doel- en openbaarheidseisen. Een AI die alleen eerdere lijnen en lagere uitspraken ophaalt maar het besluit van de Hoge Raad niet integreert, kan een analyse opleveren die juridisch nog niet meer klopt.
Een geverifieerde citatie is geen garantie dat die bron de huidige stelling nog draagt.
Waarom brongebaseerde Legal AI nog tekortschiet op geldend recht
Veel teams werken al met brongebaseerde Legal AI. Dat is vooruitgang: informatieopvraag werkt dan op controleerbare bronnen in plaats van op modelgeheugen. Geverifieerde citaties zijn beter dan spontaan gegenereerde tekst. Maar brongebaseerdheid alleen voorkomt niet elk risico op foutieve conclusies over geldend recht.
Vijf terugkerende oorzaken zijn daarbij relevant.
1. Bestaan en geldigheid worden te snel met elkaar gelijkgesteld
Een systeem kan correct vaststellen dat een ECLI bestaat, dat een uitspraak uit een officiële bron komt of dat het document in een vertrouwd corpus zit. Dat zegt nog niets over de actuele juridische betekenis. Bestaan, herkomst en gezagsstatus zijn drie verschillende controles.
2. Retrieval volgt vaak de vraagstelling van de gebruiker
Wanneer iemand om een specifieke remedie of doctrinaire lijn vraagt, haalt een systeem vaak precies die terminologie op. Dat is nuttig, maar kan ook in tunnelvisie uitmonden. Kwalitatief onderzoek vraagt vaak juist om de tegenrichting: vind latere rechtspraak die de oorspronkelijke lezing corrigeert.
3. Nieuwer is niet automatisch zwaarder
Een recente uitspraak van een lagere rechter weegt niet automatisch zwaarder dan een ouder arrest van de Hoge Raad. Actualiteit in recht hangt af van hiërarchie, verhouding en toepasselijkheid op de concrete stelling, niet alleen van datum. Een latere procedurebeslissing kan ondergeschikt zijn aan een oudere principiële uitspraak.
4. Tussenvonnissen en procedurebeslissingen vragen labelwerk
Voorvragen, tussenvonnissen, prejudiciële verwijzingen, AG-conclusies en procesbeslissingen zijn vaak relevant als context. Ze worden echter ook vaak foutief gebruikt als eindrechtvaardiging. Een goed systeem moet expliciet maken of iets historische context is en niet onkritisch als bindende basis voor de eindconclusie wordt gepresenteerd.
5. Commentaar kan informeren, maar niet rechtsregel vervangen
Blogs, updates en praktijknotities zijn nuttig voor signalering. Vaak leggen zij sneller dan primaire bronnen uit waarom ontwikkelingen plaatsvinden. Maar interpretatief commentaar is niet de rechtsbron die de norm wijzigt. Een professionele werkstroom gebruikt commentaar als context, niet als eindbeslissing.
De betere aanpak: validatie van autoriteitsstatus
De kern is niet één extra prompt zoals “zijn deze uitspraken nog geldig?”, maar een expliciete validatielaag tussen opvraging en synthese. Onderzoek naar zelfcorrigerende en gecontroleerde RAG-benaderingen laat zien dat je opvraging, bewijscontrole en de betrouwbaarheid van de eindconclusie als afzonderlijke lagen moet inrichten (4) (5) (6) (7).
Die laag moet een duidelijke vraag beantwoorden: kan deze bron de gestelde stelling nog dragen, en zo niet, welke latere autoriteit of beperking wijzigt dat resultaat?
In de praktijk gaat dat verder dan een controle op alleen het bestaan van de bron. Denk aan statusclassificatie:
- Geldend: de bron ondersteunt de stelling nog zoals geformuleerd.
- Geldend met beperkingen: bruikbaar, maar met een duidelijke nuancering.
- Alleen historisch: relevant als achtergrond, niet als huidige uitkomstbasis.
- Niet meer betrouwbaar voor dit punt: de regel is later gewijzigd, beperkt of verworpen.
- Niet volledig te verifiëren: de status onder het geldend recht kon op basis van beschikbaar materiaal niet met voldoende zekerheid worden vastgesteld.
Deze onderscheiding is cruciaal. Professionals hebben niet alleen output nodig, maar een hanteerbaar verwachtingskader: behouden, waarschuwen, aanvullen of herbeoordelen.
Wat betrouwbare Legal AI in de praktijk anders doet
Autoriteitsstatus is geen één-knopfunctionaliteit. Het is een keten van controles.
Start met officiële juridische brondata
Officiële bronnen horen in de kern van elke werkstroom. Voor Nederlands juridisch werk gaat dat om bronnen zoals Rechtspraak Open Data (2) en officiële publicaties. Officiële metadata helpen bij documenttype, processtadium, rechtbank en soms ook de onderlinge relatie tussen uitspraken (3).
Concreet betekent dit dat een systeem moet weten of het verwijst naar een einduitspraak, een tussenbeslissing of een procedurestap vóór het formeel spreken over geldend recht.
Leg relaties tussen uitspraken vast
Onderzoekskwaliteit stijgt wanneer een systeem kan herkennen dat een uitspraak een eerdere uitspraak bevestigt, beperkt, onderscheidt of verwerpt. Een platte lijst met vergelijkbare zaken is onvoldoende. Waar het op aankomt, is de juridische relatie.
Dat is essentieel bij snel ontwikkelende leerstukken. Zonder relatiebewustzijn krijgt een AI alle documenten op één lijn geplaatst. Een jurist doet dat niet; een professioneel systeem hoeft dat evenmin te doen.
Koppel actualiteit aan bronverificatie
Ook met metadata is soms gerichte bronontdekking nodig om nieuw recht op te sporen. Dat moet dan wel gecontroleerd en begrensd zijn: officiële bronnen, betrouwbare domeinen en expliciete focus op wijzigingen in het geldend recht, niet op breed webzoeken.
Met andere woorden: niet “wie noemt deze zaak?”, maar “welke officiële en gezaghebbende bronnen tonen dat deze uitleg nog of niet meer geldt?”.
Gebruik het model als controlemechanisme, niet als vrije schrijver
Taalsystemen zijn waardevol voor classificatie wanneer ze op gevalideerd materiaal werken. Ze zijn minder betrouwbaar wanneer ze de status afleiden uit contextloos modelgeheugen. De professionele opzet is daarom evidence-first: een model kan redeneren over bekend materiaal, maar mag geen doorslaggevende bron introduceren die nergens in het bewijs staat.
Dat maakt controleerbaarder werk mogelijk: de route van conclusie naar bron blijft reproduceerbaar, niet afgeleid uit een ondoorzichtige vertrouwensscore.
Toon onzekerheid expliciet
Geen enkel systeem kan in elke context de status van geldend recht foutloos vaststellen. Dat vraagt om transparante onzekerheid, niet om overmoedige zekerheid. Als een status niet met hoge betrouwbaarheid is vastgesteld, hoort de juiste output te bestaan uit duidelijke parafrasering, voorbehoud of opschaling naar menselijke review.
Een expliciete onzekerheidsmarkering is voor juristen bruikbaar; een impliciete onzekerheid is dat niet.
Waarom dit belangrijker is dan losse hallucinatiegevallen
In publieke discussies draait betrouwbaarheid vaak om hallucinaties: niet-bestaande zaken, nepcitaten, foutieve bepalingen. Dat zijn reële risico’s. Recente evaluaties over Legal AI laten zien dat brongebaseerde systemen extra governance nodig hebben (8). Voor de praktijk zijn statusfouten echter minstens net zo schadelijk, omdat ze blijven bestaan in ogenschijnlijk nette brongebaseerde output.
Een jurist ziet een verzonnen zaak vaak sneller op. Een authentieke maar verouderde uitspraak kan pas laat opvallen, zeker onder tijdsdruk. Daarom moet validatie van geldend recht onderdeel worden van elke beoordeling van Legal AI.
Vragen voor AI-leveranciers en interne teams
- Kan de tool het verschil aantonen tussen bronverificatie en validatie van de actuele geldige status?
- Hoe detecteert het systeem vernietiging, beperking of veroudering van een zaak?
- Worden procedurele beslissingen anders behandeld dan eindarresten met doorslaggevende betekenis?
- Welke officiële datasets en indexen gebruikt het systeem om relaties tussen uitspraken te onderbouwen?
- Kan het systeem tonen waarom een bron “geldend”, “beperkt”, “historisch” of “onzeker” is geclassificeerd?
- Wat gebeurt er als de status onder het geldend recht niet met voldoende zekerheid vast te stellen is?
- Leidt een waarschuwing tot praktisch advies voor de jurist, of juist tot overmatig vertrouwen?
Die vragen wegen vaak zwaarder dan modelgrootte of benchmark-score. Een groter model met een zwakke validatieketen lost het kernprobleem niet op.
Een praktische standaard voor vertrouwen in Legal AI
Juristen hebben meer nodig dan een AI die alleen actueel klinkt. Ze hebben een systeem nodig dat laat zien waarom een autoriteit nog bruikbaar is, waar zij is afgezwakt en wanneer menselijke review nog vereist blijft.
Dat is de stap van algemene AI-output naar echte juridische ondersteuning: niet alleen ophalen en samenvatten, maar toetsen of de gekozen bron nog steeds de stelling draagt.
De volgende stap in vertrouwen is niet of een citatie echt is, maar of die bron nog betrouwbaar is voor de stelling die vandaag wordt verdedigd.
Bronnen en verder lezen
- HR 15 november 2024, ECLI:NL:HR:2024:1661
- Documentatie Rechtspraak Open Data
- Waardelijst formele relaties van Rechtspraak
- Self-RAG, Asai et al. (2023)
- Corrective RAG, Yan et al. (2024)
- RAGTruth, Wu et al. (2024)
- RAGChecker, Ru et al. (2024)
- Publicatiepagina van Stanford Law over onderzoek naar de betrouwbaarheid van Legal AI
Conclusie
Legal AI wordt pas echt bruikbaar voor juristen wanneer het niet stopt bij bronverwijzing en geverifieerde citaten. De echte waarde zit in statusvalidatie: controleren of een bron nog actueel is, nog beslissend geldt en nog toepasbaar is op de precieze stelling in het dossier.
Dan verschuift Legal AI van plausibele ondersteuning naar iets wat advocaten kunnen gebruiken onder professionele standaarden: controleerbaar, toetsbaar en verdedigbaar.