Merkstrategie 29 mei 2013 Redactie Adformatie

Sentimentanalyse verbetert zichzelf

Geautomatiseerde sentimentanalyse gaat een stapje verder dan voorheen, schrijft Erik Tromp, data scientist bij O2mc in deze gastblog.

Tot voor kort labelden menselijke annoteurs eindeloos posts en tweets om het model waarop een sentimentanalyse draait, referentiemateriaal te geven. Hoe meer patronen daarbij werden ontdekt, hoe betrouwbaarder het model. Maar met een zelflerend polariteitsalgoritme, genaamd RBEM, is er nu een manier om de menselijke input tot een minimum te beperken. Artificial intelligence is daarmee een stukje dichterbij.

Gerelateerd

Partnerbijdrage

De winst van Inclusive Planning – 6 handvaten voor elke marketeer

Partnerbijdrage

Marketing in de zorg: Marika Zijp over hoe Partou werkt aan een sterk merk én betere kinderopvang

Partnerbijdrage

Marketingeffectiviteit: dit is de meetlat van morgen

Gerelateerd

Vacatures

Minder mens
Het aantal business cases voor geautomatiseerde sentimentanalyse op sociale media neemt toe. Van brand monitoring en webcare tot aftersales en reputatiemanagement. Voor zulke cases is vaak een snelle implementatie vereist. En dat is precies wat met RBEM, eigenlijk een automatiseringsslag, wordt bereikt. De menselijke zoektocht naar patronen is voortaan weggeautomatiseerd. Het zelflerend algoritme heeft genoeg aan een bak tweets of posts die positief, negatief of neutraal is. Pakweg 3.000 berichten zijn voldoende en dat is dan ook meteen de enige menselijke beoordeling die er nog aan te pas komt. Met deze informatie gaat het systeem aan de haal. Het toetst alle mogelijke patronen aan alle gegeven zinnen en berekent hoeveel waarde het patroon toevoegt. Alleen patronen die voldoende waarde toevoegen, worden bewaard. Daarbij wil de gebruiker aan de ene kant patronen ontdekken die breed toepasbaar zijn, maar tegelijkertijd moeten ze ook specifiek genoeg zijn. Die bandbreedte moet het systeem wel ‘weten’.

Vacatures

Doorjakkeren
Deze geautomatiseerde patroonherkenning heeft meerdere grote voordelen. We noemden al de enorme besparing van menselijke input. Wij mensen hoeven niet meer op zoek naar patronen, dat doet het algoritme. Slechts 3.000 positieve, negatieve of neutrale tweets zijn nodig, waar er voorheen tienduizenden nodig waren. RBEM gaat aan de slag en jakkert zo lang door als gewenst is; het systeem wordt er beter en beter op.

Gerelateerd

Nieuwe patronen zien
Los daarvan kan het algoritme patronen herkennen die het menselijke beoordelingsoog nooit kan ontdekken. Het kan verbanden zien waar mensen niet aan denken. Bovendien is de output een berekening waardoor de toevoeging altijd statistisch juist is. Een computer denkt niet in termen van ‘ja, misschien toch wel, of niet?’ Er is toegevoegde waarde of niet.

Zes miljoen analyses graag
Een ander voordeel is de capaciteit en de snelheid. Want sentimentanalyse is tijdrovend. Een klein sommetje maakt dat duidelijk. De gemiddelde tweet bevat 11 woorden. Als je daarin patronen met een lengte van maximaal 4 woorden genereert, kom je uit 257 patronen. Voor RBEM kun je die 9 verschillende patroongroepen onderverdelen, wat betekent dat je 2313 verschillende patronen met patroongroepen combineert. Deze moeten 1 voor 1 getoetst worden aan een aantal tweets uit de initiële set (dat zijn er nu grofweg 3000). Dit betekent dat je 2313 x 3000 = 6.939.000 berekeningen moet uitvoeren. En daar komt nog bij dat zo’n berekening niet iets simpels is als 1+1, maar een daadwerkelijke sentimentanalyse – meestal ook een intensief proces. Onbegonnen werk dus voor een mens. Maar niet voor RBEM; in de praktijk blijkt dat de gemiddelde zin in ongeveer 2,5 minuut op alle fronten beoordeeld is. De ervaring leert dat wanneer we een vijftal RBEM-processen inzetten, we effectief één kundige annoteur hebben vervangen.

Erik Tromp is data scientist bij O2mc