Big data is trending topic tijdens menig semiar, in menig white paper en op diverse blogs. Zie de MOLblogs van Durk, Irene, Ralph en Reiner. Trendwatchers (Kjear/trendwatching) zien het gebruik Big Data als één van de key global trends voor de komende jaren. Mc Kinsey Global Institute constateert in het rapport Big Data the next frontier for innovation, competition and productivity dat het financiële voordeel van het gebruik van “big” data voor de verschillende sectoren 100den biljoenen dollars kan bedragen. Ofwel Big Data is Big Business.
Maar wat is Big Data? Is Big Data het nieuwste speeltje van consultants of is er sprake van een permanente verandering binnen het informatievoorziening proces.
Is Big Data met andere woorden een Hype or Wind of Change?
In deze blog wil ik stilstaan bij het onderwerp Big Data? Om inzicht te krijgen in de materie, heb ik gesproken met 4 experts op het gebied van Big Data, Data Science, Data Mining en Data Visualisatietechnieken. Dit zijn Peter van der Putten (Pegasystemen, PhD LIACS Universiteit Leiden), Hugo Koopmans (DIKW), Kees Groenewoud (Cmotions) en Leen Molendijk. Eveneens heb ik een aantal avonden gegoogled om inzicht te krijgen welke literatuur aanwezig is over dit onderwerp.
Constatering
Als gevolg van allerlei uiteenlopende ontwikkelingen binnen de ICT zijn we in staat de “data-sporen” van personen/objecten/organisaties beter te traceren en te verwerken. Echter vanwege de Variety (variëteit), Velocity (snelheid/vluchtheid) en Volume van de nieuwe data-sporen zullen onze huidige datawarehouse-concepten en analysewerkwijze niet meer voldoen. Gevolg is de ontwikkeling van nieuwe visualisatiestechnieken en algoritmen.
Deze ontwikkeling zorgt ervoor dat de skills van de analist in de toekomst moeten veranderen. Wat blijft, is het feit dat deze nieuwe vergaarde informatie moet worden omgezet in actionability (Peter van der Putten). De consument van de toekomst zal echter eisen dat de tijdspanne om deze actionable informatie te generen niet meer dagen of weken zal mogen duren, maar dat de consument real time het juiste aanbod via het juiste kanaal krijgt.
Hoe ben ik tot deze constatering gekomen?
Verandering hedendaagse maatschappij
De hedendaagse maatschappij verandert voortdurend. Iedere marketeer die de laatste tijd een PEST/DESTEP analyse heeft gemaakt zal de volgende trends onderkennen:
De consument eist meer maatwerk, zelfontplooiing, welbevinden en solidariteit.
De consument stelt hogere eisen aan geleverde services.
Personen hebben behoefte contacten met anderen te delen op elk moment, op elke locaties via de verschillende media (sociale netwerken
Concurrentie op markten wordt steeds groter.
Gevolg voor marketing
Het gevolg van deze trends is een verandering van het speelveld van de marketeer (lees organisatie). De marketeer heeft behoefte aan adequate informatie om de consument goed te kunnen bedienen. De waarde van de informatie welke voorhanden is in de transactionale databases, klantcontactsystemen, CRM-systemen is onvoldoende. Om de waarde van de informatie te verbeteren zijn analisten op zoek gegaan naar andere bronnen waar de consument informatie deelt. Dit zijn bijvoorbeeld sociale netwerken(facebook, linkedin, forums, blogs, etc.) data van mobiele divisies (twitter, WhatsApp). Maar ook naar datasporen van mobiele devices.
Gevolgen voor de IT organisatie
Via scraping zijn we in staat om deze ongestructureerde data te ontsluiten. Zie bijvoorbeeld de site van IBM over Big Data. Echter de hoeveelheid (Volume) van data afkomstig van deze bronnen is enorm. Traditionele opslagtechnieken zijn niet meer in staat om deze hoeveelheid data te handelen. Nieuwe opslag-, en verwerkingstechnieken zijn een vereiste. Daarbij moet van te voren goed worden bepaald welke gegevens moeten worden vastgelegd. De waste van deze bronnen is enorm. Het ACCU-principe geldt niet voor deze bronnen. Bijkomend probleem is dat niemand binnen een organisatie verantwoordelijk is voor de kwaliteit van de data van sociale media aldus Kees Groenwoud. Dit itt de traditionele informatievoorziening.
Naast het volume spelen ook de vluchtigheid, en variëteit een cruciale rol. Kortom wil een organisatie al deze databronnen verwerven, verwerken en integreren zal er een omwenteling moeten plaatsvinden. Wie hierin zal excelleren zal 20% meer omzet kunnen generen dan de concurrent, aldus Gartner. Het scrapen/chrunchen van data van het media/device is tegenwoordig serious business.
Van data naar informatie naar kennis en wijsheid
Maar het hebben van data, betekent niet dat deze bruikbaar is om te excelleren. Om te excelleren is het van belang om data om te zetten in informatie, deze vervolgens om te zetten in kennis en wijsheid aldus Hugo Koopmans. Thomas Davenpoort is, als academicus en schrijver, gespecialiseerd in analytics, business process innovation en knowledge management: zijn boeken zijn aanraders om te lezen in dit kader.
De traditionele visualisatietechnieken en modelering technieken blijken niet te voldoen om de gewenste informatie te generen. Analytics heeft de next step moeten doorlopen om antwoorden eenduidige antwoorden te geven op de gestelde vragen. Oorzaak is de enorme heterogeniteit in de onderliggende data. Statistische modellen worden ingeruild voor data visualisaties en machine learning algoritmen. Zie ook onderstaande vergelijk:
Statisticians emphasize probabilistic models for learning, and techniques for
quantifying variation in the estimated model that results from variation in the
learning sample. For many machine learners, the algorithm is the model, and
emphasis is placed on developing interpretable yet flexible methods of learning
in challenging context (computer vision, natural language).’
http://crm.umontreal.ca/Machine06/index_e.html
Met name de rekenkracht van het interne geheugen heeft het gebruik van machine learning modellen meer en meer mogelijk gemaakt.
Daarnaast wordt theorievorming meer en meer ingeruild voor empirisch onderzoeken binnen bepaalde randvoorwaarden. Het minen van big data wordt hiermee dus een groot avontuur, dat andere eisen aan de data analist gaat stellen als voorheen (Kees Groenewoud). Gevolg is dat soms schijnbaar ongerelateerde zaken zichtbaar worden. Deze kunnen aanzet geven tot andere inzichten en nieuwe theorievorming.
Vaardigheden
Doordat het herkennen van patronen van groot belang is binnen het mining proces, heeft de data visualisatie een vlucht genomen. (Hugo Koopmans) Zie bijvoorbeeld de site processing.org.
Deze ontwikkeling brengt wel met zich mee dat de vaardigheden van de analist die zich bezig gaat houden met big data zullen gaan afwijken t.o.v. de huidige analist. Wiskunde en Kunstmatige Intelligentie zijn meer en meer belangrijke items binnen het analyseproces. Analyse wordt science. Door de transformatie van analyse naar science kun je met "big data"in principe betere (wetenschappelijk verantwoorde en op significante wijze verkregen) resultaten boeken als je de principes van wetenschappelijk onderzoek doorzet in het maken van analyses in een business context. Dit zal een verdieping betekenen van het vakgebied.
Daarnaast zal echter ook het vertalen van de gevonden patronen, in business informatie een steeds belangrijkere rol in gaan nemen. Dit is een verbreding van het vakgebied. Gebruik van technieken vanuit de gaming industie is hierbij zeer wel mogelijk aldus Hugo Koopmans.
Big Data trajecten in Nederland
Op de vraag of Nederland een vooraanstaande rol speelt in deze ontwikkeling, is het antwoord van onze experts nee. We bevinden ons in de middenmoot. Binnen de banksector en de energiesector worden de eerste projecten gelanceerd. Het opstellen van een sluitende business case blijkt vaak zeer complex. Maar dat Nederland meer data-driven wordt staat buiten kijf. Hierbij zullen we nog wel rekening moeten gaan houden of de consument het gaat accepteren dat we ongewild allerlei ’sporen’ van hem gaan verzamelen en gaan gebruiken zonder dat hij/zij hiervan op de hoogte is.
Mijn learnings
Als analist die meer gebruik maakt van de traditionele analysetechnieken, heb ik nu geconstateerd dat verdiepen in scraping, machine learning, en visualisatie de next step is in mijn ontwikkeling. We kunnen namelijk niet meer om het onderwerp Big Data, Data Mining en Data Science heen.
Aanrader om lezen zijn de rapporten van sogeti over big data.http://blog.vint.sogeti.com.
Plaats als eerste een reactie
Ook een reactie plaatsen? Word lid van Adformatie!