Overslaan en naar de inhoud gaan

Criteo geeft grote dataset voor machine learning aan wetenschap

Vrijgeven van de dataset is nodig om beter onderzoek te kunnen doen naar (advertising) dataproblemen.
Miniatuurvoorbeeld
Helaas hebben we niet meer de rechten op de originele afbeelding
© adformatie
Miniatuurvoorbeeld
Helaas hebben we niet meer de rechten op de originele afbeelding
© adformatie

Performance marketingtechnologiebedrijf Criteo  geeft de grootste publieke dataset ooit vrij voor machine learning. De dataset wordt op deze manier beschikbaar voor de open source community. 

related partner content for mobile comes here

Hiermee wil Criteo academisch onderzoek en innovatie binnen de gedistribueerde machine learning algoritmen ondersteunen.

Met het toenemende overwicht van grote dataproblemen in verschillende branches, ook performance advertising,  is het vrijgeven van datasets zoals deze nodig om academisch onderzoek en voortgang in branche zelf te stimuleren.

Geanonimiseerde datasets met informatie van echte applicaties geven onderzoekers de kans om de machine learningplatforms, waar zoveel bedrijven afhankelijk van zijn, te testen, verfijnen en te verbeteren. Criteo bijvoorbeeld is afhankelijk van een gepatenteerd en gedistribueerd leer-algoritme, om zo nauwkeurig te kunnen voorspellen wanneer een consument zal klikken op een bepaalde advertentie. Dit algoritme wordt gebruikt om de ROI van een adverteerder op de advertentie te verbeteren.

‘Nauwkeurigheid en snelheid van machine learning-algoritmen zijn essentieel voor het succes van ons bedrijf, en dat van vele anderen. Dit is echter heel moeilijk te bereiken zonder datasets die publiekelijk beschikbaar zijn’, aldus Olivier Chapelle, Principle Research Scientist bij Criteo.

Meer dan 1 terabyte
Het bedrijf krijgt 30 miljard HTTP verzoeken per dag (inclusief twee miljoen verzoeken per seconde), levert drie miljoen unieke banner advertenties per dag en slaat dagelijks meer dan 20 terabyte nieuwe data op, met een capaciteit van 37 petabytes ruwe opslag. Met meer dan vier miljoen regels en meer dan een terabyte qua grootte in totaal, bouwt de nieuw uitgebrachte dataset voort op Criteo’s ‘click prediction’ dataset, eerder uitgebracht als deel van de , uitgevoerd met Kaggle. Deze dataset werd door de onderzoekers van Carnegie Mellon University.

Criteo’s terabyte dataset wordt gehost op Microsoft Azure, verdere details kunnen worden gevonden worden op .

 

Advertentie

Reacties:

Om een reactie achter te laten is een account vereist.

Inloggen Word lid

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Advertentie

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Word lid van Adformatie

Om dit topic te kunnen volgen, moet je lid zijn van Adformatie. 15.000 vakgenoten gingen jou al voor! Meld je ook aan met een persoonlijk of teamabonnement.

Ja, ik wil een persoonlijk abonnement Ja, ik wil een teamabonnement
Al lid? Log hier in

Word lid van Adformatie

Om dit artikel te kunnen liken, moet je lid zijn van Adformatie. 15.000 vakgenoten gingen jou al voor! Meld je ook aan met een persoonlijk of teamabonnement.

Ja, ik wil een persoonlijk abonnement Ja, ik wil een teamabonnement
Al lid? Log hier in