Digital transformation 19 juni 2015 Elsbeth Eilander

Criteo geeft grote dataset voor machine learning aan wetenschap

Vrijgeven van de dataset is nodig om beter onderzoek te kunnen doen naar (advertising) dataproblemen.

Performance marketingtechnologiebedrijf Criteo geeft de grootste publieke dataset ooit vrij voor machine learning. De dataset wordt op deze manier beschikbaar voor de open source community.

Gerelateerd

Partnerbijdrage

Hoe speel je in op de veranderende woonbehoeften van verschillende leeftijdsgroepen?

Partnerbijdrage

Connected TV in 2025: de kijker aan het stuur, de adverteerder op de bijrijdersstoel

Partnerbijdrage

Hoe een slimme stoelstrategie ziekenhuizen én merken vooruit helpt

Gerelateerd

Vacatures

Hiermee wil Criteo academisch onderzoek en innovatie binnen de gedistribueerde machine learning algoritmen ondersteunen.

Vacatures

Met het toenemende overwicht van grote dataproblemen in verschillende branches, ook performance advertising, is het vrijgeven van datasets zoals deze nodig om academisch onderzoek en voortgang in branche zelf te stimuleren.

Gerelateerd

Geanonimiseerde datasets met informatie van echte applicaties geven onderzoekers de kans om de machine learningplatforms, waar zoveel bedrijven afhankelijk van zijn, te testen, verfijnen en te verbeteren. Criteo bijvoorbeeld is afhankelijk van een gepatenteerd en gedistribueerd leer-algoritme, om zo nauwkeurig te kunnen voorspellen wanneer een consument zal klikken op een bepaalde advertentie. Dit algoritme wordt gebruikt om de ROI van een adverteerder op de advertentie te verbeteren.

‘Nauwkeurigheid en snelheid van machine learning-algoritmen zijn essentieel voor het succes van ons bedrijf, en dat van vele anderen. Dit is echter heel moeilijk te bereiken zonder datasets die publiekelijk beschikbaar zijn’, aldus Olivier Chapelle, Principle Research Scientist bij Criteo.

Meer dan 1 terabyte
Het bedrijf krijgt 30 miljard HTTP verzoeken per dag (inclusief twee miljoen verzoeken per seconde), levert drie miljoen unieke banner advertenties per dag en slaat dagelijks meer dan 20 terabyte nieuwe data op, met een capaciteit van 37 petabytes ruwe opslag. Met meer dan vier miljoen regels en meer dan een terabyte qua grootte in totaal, bouwt de nieuw uitgebrachte dataset voort op Criteo’s ‘click prediction’ dataset, eerder uitgebracht als deel van de Display Advertising Challenge, uitgevoerd met Kaggle. Deze dataset werd gebruikt als benchmark door de onderzoekers van Carnegie Mellon University.

Criteo’s terabyte dataset wordt gehost op Microsoft Azure, verdere details kunnen worden gevonden worden op Criteo Labs.