Machine Learning

Big data: Velocity, Variety en Volume

De huidige overvloed van data geeft aan dat we in een tijdperk aanbeland zijn van Big Data. Deze data was altijd al aanwezig, alleen waren de middelen beperkt om deze data op te vragen, op te slaan en te verwerken. Maar wat is nu Big Data precies en wat kan je ermee?

Definitie

Big Data is een verzamelterm die karakteristieken beschrijft van de huidige problemen die men ervaart met data en de verwerking hiervan. Dit is een zeer abstracte term en vraagt om meer uitleg. Big Data laat zich kenmerken door drie factoren:

Volume

Volume: de hoeveelheid data. Hierbij stelt men vragen: Hoeveel datapunten zijn er beschikbaar? Hoeveel opslagcapaciteit vraagt dit? Met name het gebruik van afbeeldingen zoals bij verwerking in Convolutional Neurale Netwerken het geval is, vragen relatief veel opslagruimte.

Velocity

Velocity: De snelheid van productie van data. Is er sprake van een continue stroom van data zoals bij een gebouwbeheersysteem vaak het geval is? Of meer op intervalbasis? Kan deze data wel worden opgeslagen en verwerkt?

Variety

Variety: De verwerking van de verscheidenheid in data. Dit gaat bijvoorbeeld over data uit verschillende databronnen. Komt data alleen uit enquetes, of ook uit andere bronnen zoals twitter, Facebook, LinkedIn enzovoort? Is alleen data beschikbaar van gebouwbeheersystemen of ook data uit maintenance software zoals Ultimo? De verscheidenheid in data heeft er ook aan bijgedragen aan de ontwikkeling van NoSQL databases. Hierbij maakt men gebruik van meerdere mogelijke manieren van opslag.

Big Data

Big Data is sterk tijdsafhankelijk. De rekenkracht en opslagcapaciteit van PC’s neemt nog steeds sterk toe. Wat 15 jaar geleden Big Data genoemd werd, hoeft nu niet meer het geval te zijn.

Big Data is niet iets van grote ondernemingen. Kleine bedrijven kunnen ook data verzamelen of genereren binnen hun eigen onderneming. Er zijn daarnaast ook openbare bronnen die een onderneming kan gebruiken en combineren met eigen data:

www.cbs.nl,

https://ect.isso.nl/algemeen,

https://rvo.b3p.nl/viewer/app/Warmteatlas/v2,

https://www.nationaleenergieatlas.nl/kaarten,

https://data.overheid.nl/

Data Mining

Een term die gebruikt wordt parallel aan Big Data is Data Mining. Data Mining is het extraheren van inzichten uit data zoals het herkennen van patronen of ontdekken van relaties tussen variabelen. Dit lijkt een beetje op Machine Learning, alleen is Machine Learning breder. Machine Learning maakt bijvoorbeeld ook gebruik van neurale netwerken wat meer als een black box model werkt. Inzichten in data kunnen dan daarbij ontbreken, of het is niet duidelijk hoe het neurale netwerk aan zijn uitkomst is gekomen. Data Mining geeft inzichten voor verder onderzoek. Het geeft antwoord op de vraag bij welke databronnen (of een combinatie hiervan) meer kennis of inzichten te halen is.