In deze blog bespreken we de huidige beperkingen van Large Language Models in de advocatuur. Voordat we daar dieper op ingaan, is het belangrijk om eerst een korte uitleg te geven over wat Large Language Models nu precies zijn.
Wat is een Large Language Model (LLM)?
Large Language Models zijn modellen die zijn getraind om zowel natuurlijke taal te ‘begrijpen’ als te genereren. Door gebruik te maken van enorme datasets, zoals Wikipedia-artikelen, nieuwsartikelen en boeken, hebben deze modellen een brede kennis van taal ontwikkeld. LLM’s worden in verschillende toepassingen gebruikt en ChatGPT is een van de meest bekende voorbeelden hiervan.
Hoe wordt een LLM getraind?
LLM’s worden getraind op enorme datasets. GPT, het onderliggende model van ChatGPT, gebruikt bijvoorbeeld ongeveer 300 miljard woorden. Zonder dat het al te technisch wordt, willen we enkele technieken uitlichten in de training van zo een model. Dit zijn Unsupervised, Supervised en Reinforcement Learning (from Human Feedback).
Unsupervised learning is een machine learning-techniek waarbij een model wordt getraind om patronen en structuur te vinden in ongelabelde gegevens. Eigenlijk laat je het model als het ware haar gang gaan. Bij de meeste LLM’s gaat het model vervolgens proberen het volgende woord te voorspellen op basis van historische teksten.

Enkel Unsupervised learning volstaat echter niet om een applicatie zoals ChatGPT te maken. Als er alleen Unsupervised Learning zou plaatsvinden zou het model erg veel fouten maken en daarnaast zou het model moeite hebben met context begrijpen. Daarom bestaat er ook Supervised Learning en Reinforcement Learning form Human Feedback. Bij deze vormen van training van het model gaan mensen zelf input en output genereren, maar ook bestaande output rangschikken. Hierbij worden er tientallen mensen en computerprogramma’s aan het werk gezet om de antwoorden van het model te rangschikken op correctheid. De antwoorden zijn namelijk niet 100% goed of fout (wat het bij wiskundige modellen vaak makkelijker maakte). Hierbij worden er zelfs andere AI-modellen ingezet om de antwoorden te controleren.

Maar wat heeft dit met de advocatuur te maken?
Large Language Modellen zoals GPT-4, die onderliggend zijn aan ChatGPT en Bing chat, worden gecontroleerd op duizenden antwoorden. Hier waren juridisch inhoudelijke zaken bijna geen onderdeel van. Bovendien had de controlegroep geen kennis van het recht. Om LLM’s te gebruiken in de advocatuur, zal zo’n model getraind moeten worden op juridische use cases en gecontroleerd worden door juridische experts. Veel van deze info zit echter opgesloten in documentmanagementsystemen (DMS) van advocatenkantoren en juridische afdelingen. Als je bijvoorbeeld vraagt of zo’n LLM een contract kan analyseren komen er een aantal inzichten uit die met veel zelfverzekerdheid worden gegenereerd, maar deze zullen niet bruikbaar zijn. Dit noemen ze ook wel ‘hallucinatie’. Om deze reden zullen er advocaten en juridische experts de antwoorden/output moeten controleren en zo op deze manier het model verder trainen. Dit is bijvoorbeeld wat Allen & Overy en PwC proberen te doen via hun samenwerking met Harvey. Een andere tool, Casetext, is hier ook al erg ver mee.
Conclusie
Het is een fantastisch idee om advocaten kennis te laten maken met applicaties zoals ChatGPT. Dit is een van de meest disruptieve innovaties ooit en iedere advocaat zal hier vroeg of laat mee in aanraking komen. Echter dienen ze ook gewezen te worden op de limitaties ervan. Voor niet-dossier gerelateerd werk kan ChatGPT uitstekend ingezet worden, maar wanneer het aankomt op dossier gerelateerd werk, dan zullen de modellen nog verder getraind moeten worden voor de specifieke use cases. We raden het ten zeerste af om cliëntgegevens in te voeren in dergelijke chatbots. Zo was er een paar weken terug zelfs een datalek waarbij men chats van andere gebruikers konden inzien.