Overslaan en naar de inhoud gaan

Stichting Brein haalt AI-dataset offline na ‘heterdaadje’ van auteursrechtenroof

Tienduizenden boeken en miljoenen tekstregels werden illegaal gebruikt om AI-modellen te trainen.
boeken
© shutterstock
boeken
© shutterstock

Stichting Brein heeft een grote Nederlandstalige dataset offline gehaald die werd gebruikt om kunstmatige intelligentie (AI)-modellen te trainen. Na een tip ontdekte Brein dat deze dataset bestond uit illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals Nu.nl en ondertitels van talloze films en tv-series uit illegale bron.

related partner content for mobile comes here

De enorme dataset was gecomprimeerd zodat deze makkelijk te gebruiken was door AI -computermodellen zoals large language models (LLMs). Hoewel de dataset daarmee niet direct geschikt was voor consumenten om te lezen als e-book of nieuwswebsite, is dit niet toegestaan. Het kopiëren en dus ook het dataminen uit illegale bron is nooit toegestaan. Ook voor het dataminen van legale bronnen met een auteursrechtenvoorbehoud is toestemming van de auteursrechthebbenden vereist.

‘Brein treedt op tegen inbreukmakend en tegen onrechtmatig gebruik van artificial intelligence’, zegt directeur Bastiaan van Ramshorst van Stichting Brein op de site.

Van Ramshorst: ‘We hebben in de dataset onder meer gezocht naar de letterlijke tekst: ‘Niets uit deze uitgave mag worden verveelvoudigd’ en dit leverde meer dan 10.000 resultaten op. Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud. Dit toont duidelijk aan dat de auteursrechten niet zijn gerespecteerd, een heterdaadje noemen we dat ook wel.'

JM: De dataset is inmiddels offline gehaald. U heeft de naam van de maker ervan niet bekend gemaakt. Waarom niet?

BvR: ‘Omdat het om een natuurlijke persoon gaat de privacy van die persoon dan in het geding zou zijn. Er is een regeling getroffen met die persoon die een verklaring heeft ondertekend waarin hij belooft geen inbreuk meer te maken. Ook heeft hij informatie gegeven over wie de dataset heeft ontvangen. Er is dus geen opsporingsbelang meer. We onderzoeken nu welke AI-modellen deze dataset hebben gebruikt en zullen die partijen aanspreken. Het gaat om een specifiek Nederlandstalige set. Dus geschikt voor Nederlandse Large Language Models.’  

Stel je wil als bureau of bedrijf een AI-model gebruiken. Hoe weet je dan dat ze legaal zijn samengesteld?

‘Dat is nu nog lastig. Volgens de AI-act in van de EU is iedereen die een AI-model op de Europese markt brengt verplicht om transparant zijn over de bronnen waarmee dat getraind is, wat er is ingestopt aan de achterkant. Het punt is alleen dat die bepalingen nu nog niet gelden. Voor nieuwe AI-modellen gaan ze vanaf augustus volgend jaar in en voor bestaande zelfs nog later, in 2027. Bij de openbare modellen wordt nog nauwelijks duidelijk gemaakt waarop ze nou precies op getraind zijn.’

Kunnen rechthebbenden van het auteursrecht erachter komen dat hun teksten illegaal zijn gebruikt?

‘Dat is heel lastig. We zien  wel aanbieders van zogenaamde AI-detectoren, appjes waarmee je kan kijken van is mijn data gebruikt? Maar staat nog in de kinderschoenen. We raden als Brein aan in ieder geval bij de teksten aan een voorbehoud te maken in lijn met de Auteurswet. In principe mag iemand namelijk text- en dataminen van legale bronnen, bijvoorbeeld nieuwssites, tenzij er staat: ‘Het auteursrecht is voorbehouden’. Veel bij ons aangesloten rechthebbenden doen dit al en ook in deze zaak .’

En als dat er bij staat…

‘Dan moet je dus toestemming vragen aan de rechthebbende, die een behoorlijke vergoeding kan vragen voor een licentie. Dit voorjaar was bijvoorbeeld in het nieuws dat Financial Times een licentiedeal heeft gesloten met OpenAI voor ChatGPT. Dus die kunnen dan gewoon met toestemming de site van de Financial Times gebruiken.

U heeft nu een illegale dataset ontdekt, is dat een topje van de ijsberg?

'Ja, ik vrees van wel. Ja. Dit is de eerste keer dat wij dus zo'n grote Nederlandstalige dataset hebben ontdekt, maar die was openbaar. Als dat niet op een openbare website is, dan onttrekt zich dat ook aan ons zicht.  Overigens zien we dat de AI-modellen die verzoek worden gemaakt van grote bedrijven zich aan de regels houden. Die letten er dan nauw op wat wordt er ingestopt, zodat ze zeker weten dat er niet achteraf gedoe komt over niet-rechtmatige content. Dat vinden wij prima natuurlijk. Stichting Brein is niet tegen artificial intelligence, we treden alleen op tegen onrechtmatig gebruik van data.’

Advertentie

Reacties:

Om een reactie achter te laten is een account vereist.

Inloggen Word lid

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Advertentie

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Word lid van Adformatie

Om dit topic te kunnen volgen, moet je lid zijn van Adformatie. 15.000 vakgenoten gingen jou al voor! Meld je ook aan met een persoonlijk of teamabonnement.

Ja, ik wil een persoonlijk abonnement Ja, ik wil een teamabonnement
Al lid? Log hier in

Word lid van Adformatie

Om dit artikel te kunnen liken, moet je lid zijn van Adformatie. 15.000 vakgenoten gingen jou al voor! Meld je ook aan met een persoonlijk of teamabonnement.

Ja, ik wil een persoonlijk abonnement Ja, ik wil een teamabonnement
Al lid? Log hier in