Stichting Brein heeft een grote Nederlandstalige dataset offline gehaald die werd gebruikt om kunstmatige intelligentie (AI)-modellen te trainen. Na een tip ontdekte Brein dat deze dataset bestond uit illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals Nu.nl en ondertitels van talloze films en tv-series uit illegale bron.
De enorme dataset was gecomprimeerd zodat deze makkelijk te gebruiken was door AI -computermodellen zoals large language models (LLMs). Hoewel de dataset daarmee niet direct geschikt was voor consumenten om te lezen als e-book of nieuwswebsite, is dit niet toegestaan. Het kopiëren en dus ook het dataminen uit illegale bron is nooit toegestaan. Ook voor het dataminen van legale bronnen met een auteursrechtenvoorbehoud is toestemming van de auteursrechthebbenden vereist.
‘Brein treedt op tegen inbreukmakend en tegen onrechtmatig gebruik van artificial intelligence’, zegt directeur Bastiaan van Ramshorst van Stichting Brein op de site.
Van Ramshorst: ‘We hebben in de dataset onder meer gezocht naar de letterlijke tekst: ‘Niets uit deze uitgave mag worden verveelvoudigd’ en dit leverde meer dan 10.000 resultaten op. Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud. Dit toont duidelijk aan dat de auteursrechten niet zijn gerespecteerd, een heterdaadje noemen we dat ook wel.'
‘Omdat het om een natuurlijke persoon gaat de privacy van die persoon dan in het geding zou zijn. Er is een regeling getroffen met die persoon die een verklaring heeft ondertekend waarin hij belooft geen inbreuk meer te maken. Ook heeft hij informatie gegeven over wie de dataset heeft ontvangen. Er is dus geen opsporingsbelang meer. We onderzoeken nu welke AI-modellen deze dataset hebben gebruikt en zullen die partijen aanspreken. Het gaat om een specifiek Nederlandstalige set. Dus geschikt voor Nederlandse Large Language Models.’
‘Dat is nu nog lastig. Volgens de AI-act in van de EU is iedereen die een AI-model op de Europese markt brengt verplicht om transparant zijn over de bronnen waarmee dat getraind is, wat er is ingestopt aan de achterkant. Het punt is alleen dat die bepalingen nu nog niet gelden. Voor nieuwe AI-modellen gaan ze vanaf augustus volgend jaar in en voor bestaande zelfs nog later, in 2027. Bij de openbare modellen wordt nog nauwelijks duidelijk gemaakt waarop ze nou precies op getraind zijn.’
‘Dat is heel lastig. We zien wel aanbieders van zogenaamde AI-detectoren, appjes waarmee je kan kijken van is mijn data gebruikt? Maar staat nog in de kinderschoenen. We raden als Brein aan in ieder geval bij de teksten aan een voorbehoud te maken in lijn met de Auteurswet. In principe mag iemand namelijk text- en dataminen van legale bronnen, bijvoorbeeld nieuwssites, tenzij er staat: ‘Het auteursrecht is voorbehouden’. Veel bij ons aangesloten rechthebbenden doen dit al en ook in deze zaak .’
‘Dan moet je dus toestemming vragen aan de rechthebbende, die een behoorlijke vergoeding kan vragen voor een licentie. Dit voorjaar was bijvoorbeeld in het nieuws dat Financial Times een licentiedeal heeft gesloten met OpenAI voor ChatGPT. Dus die kunnen dan gewoon met toestemming de site van de Financial Times gebruiken.
'Ja, ik vrees van wel. Ja. Dit is de eerste keer dat wij dus zo'n grote Nederlandstalige dataset hebben ontdekt, maar die was openbaar. Als dat niet op een openbare website is, dan onttrekt zich dat ook aan ons zicht. Overigens zien we dat de AI-modellen die verzoek worden gemaakt van grote bedrijven zich aan de regels houden. Die letten er dan nauw op wat wordt er ingestopt, zodat ze zeker weten dat er niet achteraf gedoe komt over niet-rechtmatige content. Dat vinden wij prima natuurlijk. Stichting Brein is niet tegen artificial intelligence, we treden alleen op tegen onrechtmatig gebruik van data.’