Data Mining vs OLAP
Zowel datamining als OLAP zijn twee van de gemeenschappelijke Business Intelligence (BI) -technologieën. Business intelligence verwijst naar computergebaseerde methoden voor het identificeren en extraheren van nuttige informatie uit bedrijfsgegevens. Datamining is het vakgebied van de informatica, dat zich bezighoudt met het extraheren van interessante patronen uit grote datasets. Het combineert vele methoden van kunstmatige intelligentie, statistiek en databasebeheer. OLAP (online analytical processing) zoals de naam doet vermoeden, is een compilatie van manieren om multidimensionale databases op te vragen.
Datamining is ook bekend als Knowledge Discovery in data (KDD). Zoals hierboven vermeld, is het een gebied van informatica, dat zich bezighoudt met extractie van voorheen onbekende en interessante informatie uit onbewerkte gegevens. Vanwege de exponentiële groei van gegevens, vooral in gebieden zoals bedrijven, is datamining een zeer belangrijk hulpmiddel geworden om deze enorme hoeveelheid gegevens om te zetten in business intelligence, omdat handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals sociale netwerkanalyse, fraudedetectie en marketing. Datamining gaat meestal over de volgende vier taken: clustering, classificatie, regressie en associatie. Clustering identificeert vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens en omvat doorgaans de volgende stappen: voorverwerking van gegevens, ontwerpen van modellering, leren / kenmerken selecteren en evalueren / valideren. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie zoekt relaties tussen variabelen. Datamining wordt meestal gebruikt om vragen te beantwoorden, zoals wat zijn de belangrijkste producten die kunnen helpen om hoge winst te behalen volgend jaar in Wal-Mart.
OLAP is een klasse van systemen die antwoorden bieden op multidimensionale zoekopdrachten. Doorgaans wordt OLAP gebruikt voor marketing, budgettering, prognoses en vergelijkbare toepassingen. Het spreekt voor zich dat de databases die voor OLAP worden gebruikt, zijn geconfigureerd voor complexe en ad-hoc-query's met een snelle uitvoering in gedachten. Meestal wordt een matrix gebruikt om de uitvoer van een OLAP weer te geven. De rijen en kolommen worden gevormd door de dimensies van de query. Ze gebruiken vaak aggregatiemethoden op meerdere tabellen om samenvattingen te verkrijgen. Kan het bijvoorbeeld worden gebruikt om meer te weten te komen over de verkopen van dit jaar in Wal-Mart in vergelijking met vorig jaar? Wat is de voorspelling voor de omzet in het volgende kwartaal? Wat kan worden gezegd over de trend door te kijken naar de procentuele verandering?
Hoewel het duidelijk is dat Data mining en OLAP vergelijkbaar zijn omdat ze op gegevens werken om intelligentie te verkrijgen, komt het grootste verschil uit de manier waarop ze op gegevens werken. OLAP-hulpprogramma's bieden multidimensionale gegevensanalyses en ze bieden samenvattingen van de gegevens, maar in tegenstelling hiermee richt datamining zich op verhoudingen, patronen en invloeden in de gegevensset. Dat is een OLAP-deal met aggregatie, wat neerkomt op de werking van gegevens via "optellen", maar datamining komt overeen met "deling". Een ander opmerkelijk verschil is dat terwijl data mining tools modelgegevens en return-actionable regels zijn, OLAP in realtime vergelijkings- en contrasttechnieken langs bedrijfsdimensie zal uitvoeren.