Natural Language Processing (NLP) is een subdiscipline van taalkunde, computer science en Artificial Intelligence. NLP heeft als doel de kloof tussen menselijke taal en computers te verkleinen door middel van teksten te laten uitlezen door een computer. Zo kunnen NLP-programma’s teksten, video’s en audiofragmenten analyseren. Het doel van NLP is dan ook om tekst om te zetten in kwantitatieve data om hier vervolgens statistische analyses mee uit te voeren.
De eenvoudigste manier van NLP is het tellen van woorden in een tekst. Vaak worden hier dan veelvoorkomende woorden zoals de, het en een verwijderd. Hieronder zie je een eenvoudig voorbeeld van NLP (gemaakt met de gratis tool Voyant Tools). Het is een analyse van de website www.itfactor-consulting.nl waarin je in een oogopslag kunt zien waar onze website uit bestaat.
Deze tool kan ook gebruikt worden om teksten te analyseren, iets wat voor de advocatuur erg bruikbaar kan zijn. Hieronder bespreken we een aantal mogelijkheden van NLP in de advocatuur:
- Automatische documentindeling
- Herkennen van clusters/groepen
- Legal Design
- Sentimentanalyse
- Contract review
- Automatische documentindeling
Door middel van NLP kan een programma herkennen onder welke map een bepaald document of e-mail opgeslagen moet worden. Wanneer bijvoorbeeld in een stuk tekst een herkend patroon zit of een bepaald woord vaker voorkomt, geeft het NLP-programma een suggestie van waar zo’n bestand opgeslagen kan worden. Een geavanceerd NLP-programma kan ook nog eens leren of het bestand ook daadwerkelijk op die plek wordt opgeslagen. Op het moment dat het programma leert van deze keuze, spreken we van machine learning of reinforcement learning. Dit programma leert er namelijk van als deze een goede of foute suggestie geadviseerd heeft.
- Herkennen van clusters/groepen
De volgende usecase betreft het herkennen van clusters of groepen. In de advocatuur is verreweg het grootste gedeelte van de data opgemaakt uit tekst. Het kan soms erg lang duren om uit deze teksten nuttige informatie te halen. Door het analyseren van tekst kan er eenvoudig veel informatie gewonnen worden. Een voorbeeld hiervan is het tellen van bedrijfsnamen die samen in een zin of stuk tekst voorkomen. In het volgende figuur kun je zien hoe vaak Romeo en Juliet samen genoemd worden en in combinatie met andere namen in het boek “Romeo en Juliet”. Je kunt aan de grootte van het bolletje zien dat ze beiden vaak genoemd worden, maar niet extreem vaak samen in dezelfde zin (zie de dikte van de lijn tussen beide). Hieruit zou je kunnen opmaken dat het boek grotendeels de twee verhalen apart verteld.
- Legal Design
Analyses van NLP kunnen naast clusters/groepen ook andere soorten van informatie vinden. Wanneer deze informatie gevisualiseerd wordt, ontstaat de overlap met Legal Design. Legal Design is de afgelopen jaren steeds populairder geworden en is eigenlijk niets anders is dan het visualiseren van juridische informatie. Legal Design heeft dan ook als doel om juridische diensten te verbeteren voor zowel de cliënt als de advocaat door het gebruik van visualisaties. NLP kan hier als toegevoegde waarde dienen door de verbanden en analyses die hieruit voortkomen in te zetten voor Legal Design. Stanford Legal Design Lab, een interdisciplinair team van de Stanford Law School, visualiseert hieronder bijvoorbeeld hoe ‘traffic court’ in z’n werk gaat. Een dergelijke visualisatie brengt de informatie vaak vele malen beter over dan platte tekst.

- Sentimentanalyse
Door het analyseren van woordgebruik in documenten kunnen sommige NLP-programma’s het sentiment van de tekst inschatten. Zo kan in een oogopslag duidelijk worden of een stuk aanvallend of verdedigend is, of een e-mail in positieve of negatieve zin geschreven is en of het algemene woordgebruik het juiste sentiment bevat. Dit is uitermate bruikbaar als controlemiddel voor onder andere processtukken voor juristen en advocaten.
- Contract review
Een Legal Tech tool waar de laatste jaren erg veel in is geïnvesteerd is contract review. Contract review wordt momenteel vooral gedaan bij contracten die vaak gebruikt worden en over het algemeen dezelfde opbouw hebben. Deze omvatten onder andere Non-Disclosure Agreements (NDAs), Confidentiality Agreements, Partner Agreements en Lease Agreements. In dit soort contracten liggen de risico’s voor beide partijen vaak in dezelfde soort onderdelen van het contract. Hierdoor kan een programma eenvoudiger getraind worden om deze risico’s te vinden en aan te kaarten. Een aantal voorbeelden van bedrijven die contract review software aanbieden zijn hieronder weergegeven.
De beperktheid in Nederland
Helaas is NLP vele malen verder ontwikkelt in de Engelse taal dan in de Nederlandse taal. Dit heeft als voornaamste reden dat de Nederlandse taal relatief weinig gebruikt wordt, hierdoor is een Nederlandse NLP-tool vaak niet schaalbaar. Aangezien de komende jaren de mogelijkheden binnen NLP verder zullen ontwikkelen, zien we de dat de opkomst van NLP in de Nederlandse taal nog vol aan de gang is. Echter zal dit nog wel een aantal jaren nodig hebben. Ook wordt de jurisprudentie in Nederland minder goed opgeslagen dan in bijvoorbeeld Amerika, hierdoor is er ook vrij weinig data beschikbaar om in programma’s te ‘voeren’ en ervan te leren. Het beperkte gebruik van de Nederlandse taal en de beperkte beschikbaarheid van jurisprudentie zorgen ervoor dat tekstanalyse vaak nog alleen op rudimentair niveau gebeurt. Er bestaan momenteel dus nog weinig getrainde modellen voor de Nederlandse taal, maar wetenschappers zijn hier wel volop mee bezig en hopelijk zien we snel mooie ontwikkelingen hierin.