By biim
Er zijn de laatste tijd flink wat mensen die beweren dat Big Data het einde van het Enterprise Data Warehouse inluidt. Lees bijvoorbeeld hier, hier en hier.
Puur kijkend naar de harde betekenis van het woord: een Enterprise Data Warehouse (EDW) is een een organisatie-breed pakhuis van data. Big Data is ook data, heel veel data en dat kan best organisatie-breed zijn. De plek waarop al die Big Data opgeslagen ligt zou best je een EDW kunnen noemen. In pure naamgeving is dat het misschien ook wel.
Maar wat een EDW een EDW maakt is dat er nog een paar componenten aan de data toegevoegd zijn:
- structuur;
- samenhang;
- integratie;
- bruikbare historie in de vorm van tijdstroken;
- additionele informatie, zoals classificaties en hiërarchiën, die nergens in andere bronnen terug te vinden is;
- verrijkingen.
Dit alles zie je niet direct terug in de benaming EDW, maar dit zijn wel degelijk aspecten die het EDW bepalen. Het geeft het EDW toegevoegde waarde, maakt de data bruikbaar en inzetbaar.
Geïntegreerd is iets anders dan “alles bij elkaar”. Wanneer ik alle data van alle bronsystemen in één grote database plaats, dan is de data nog niet geintegreerd. Integratie betekent ook integratie van semantiek; is het concept van klant in systeem X hetzelfde als dat in systeem Y? En als dat zo is, is de klant met nummer 123 in systeem X in de realiteit gelijk aan de klant met nummer 123 in systeem Y? En als dat niet zo is, hoe bepaal ik dan dat twee klanten in realiteit dezelfde zijn? Integratie betekent dat dat proces doorlopen is en dat je daadwerkelijk één geintegreerde klanttabel heb. Pas als je geintegreerd hebt, kun je systeemoverstijdende vragen stellen. (natuurlijk is het concept van één geintegreerde klanttabel vaak niet haalbaar in de realiteit, maar het maakt duidelijk dat er een wereld van verschil ligt ten opzichte van “gewoon alles bij elkaar plaatsen”)
De semantische integratie betekent dus dat er een nieuwe taal gesproken wordt die niet per sé 1-op-1 gelijk is aan de taal van het bronsysteem. Daarmee is de structuur bovendien veranderd. Dit staat nog los van de modelleringstechniek die je kiest om de structuren op te slaan (3NF, dimensioneel, Data Vault, Anchor Modeling).
En dan Big Data. De data ligt in enorme Data Lakes, waar je an sich misschien niet eens zoveel mee kan. Deze data is niet altijd geschikt voor consumptie door eindgebruikers (lees business gebruikers). En als het dat al is, dan is het te veel consumptie. Big data ligt uiteindelijk zwaar op de maag en komt ten slotte je neusgaten uit. Waar moet je beginnen?
Big Data moet je veelal eerst analyseren en alzodanig is het wel geschikt voor data mining, analyse tools en ad-hoc queries.
We kennen allemaal het verschil tussen gegevens, informatie en kennis (en gedrag!). En voor alle goede orde, Big Data is gewoon data. Big Data is dus geen Big Information, laat staan Big Intelligence. Als je van data naar intelligence wilt, dan moet je een paar stappen maken. In dat proces moet je het EDW plaatsen. In een EDW zijn al een flink aantal van deze stappen gemaakt en wat dat betreft heeft een EDW een streep voor op Big Data. Niet dat een EDW eindproduct is, EDW is misschien maar een halffabricaat, een middel. Op die schaal is Big Data slechts de ruwe olie, die nog geraffineerd moet worden. Raffineren kun je doen met Big Analytics. Met de uitkomsten van de analyses kun je vervolgens halffabricaten bouwen. Die informatie kun je voeren aan een EDW. Andersom kun je de verrijkte en geïntegreerde informatie uit het EDW plaatsen in Hadoop, zodat Big Analytics hiervan gebruik kan maken.
In die zin zijn EDW en Big Data twee complementaire werelden die naast elkaar kunnen leven en elkaar kunnen verrijken en aanvullen. Wellicht zullen ze ook deels gaan overlappen. Wellicht kun je bepaalde lagen van het data warehouse in Hadoop opslaan in plaats van in een “ouderwets RDBMS”. Wellicht kun je ETL-processen implementeren als MapReduce-taken. Het EDW zal mee gaan met zijn tijd, maar de concepten van het EDW zullen blijven bestaan. Misschien wordt de behoefte aan structuur, samenhang en integratie alleen maar groter in de tijd van Big Data!
Gearchiveerd onder:
Via:: biim