Het grootste verschil tussen datamining en datawarehousing is dat datamining is het proces van het identificeren van patronen uit een enorme hoeveelheid gegevens, terwijl data warehousing het proces is van het integreren van gegevens uit meerdere gegevensbronnen in een centrale locatie.
Datamining is het proces van het ontdekken van patronen in grote gegevenssets. Het gebruikt verschillende technieken, zoals classificatie, regressie, etc. om zakelijke beslissingen te nemen. Aan de andere kant, data warehousing is het proces van het extraheren, transformeren en laden van gegevens uit meerdere gegevensbronnen naar het datawarehouse. Data mining-technieken kunnen worden toegepast op een datawarehouse om nuttige patronen te ontdekken.
1. Wat is Data Mining
- Definitie, functionaliteit
2. Wat is Data Warehousing
- Definitie, functionaliteit
3. Verschil tussen datamining en datawarehousing
- Vergelijking van belangrijke verschillen
Data Mining, Data Warehousing, Data
Datamining is het proces van het ontdekken van de patronen in een grote dataset. Met andere woorden, data mining onttrekt nieuwe patronen, relaties tussen data-entiteiten. De gedolven gegevens moeten nieuw, correct zijn en een potentieel gebruik hebben.
Het proces van het extraheren van nuttige informatie uit gegevens omvat verschillende stappen. De eerste stap is gegevensselectie. Gegevens zijn afkomstig van meerdere bronnen en hebben meerdere indelingen. Daarom zijn alle gegevens geïntegreerd en opgeslagen op een enkele locatie, een datawarehouse genaamd. De tweede stap is voorverwerking. Het omvat samenvatten, normaliseren en aggregeren. Deze transformaties helpen om gegevens geschikt te maken voor datamining. De derde stap is datamining. Het maakt gebruik van technieken of algoritmen zoals clustering, regressie, classificatie om patronen van de gegevens te extraheren. De vierde stap is patroonevaluatie. Het controleert de nauwkeurigheid van de verkregen uitvoer. De laatste stap is om de uitkomsten weer te geven met behulp van grafieken.
Figuur 1: Data Mining
De belangrijkste technieken om data mining uit te voeren zijn anomalie detectie, associatie rule mining, clustering, classificatie en regressie. Ten eerste helpt anomalie-detectie ongewone patronen te identificeren om de variatie in gegevens te begrijpen. Ten tweede helpt associatie rule mining interessante associatiepatronen tussen variabelen te vinden. Ten derde identificeert clustering klassen in gegevens die op elkaar lijken. Ten vierde identificeert classificatie de klassen waartoe een waarneming behoort. Ten slotte helpen regressies om de relatie tussen variabelen te vinden. Dit zijn de belangrijkste technieken die worden gebruikt in datamining.
In een bedrijfsorganisatie bevinden gegevens zich in verschillende databases. Eerst worden gegevens uit meerdere bronnen geëxtraheerd en getransformeerd. Vervolgens worden ze geladen in een centrale locatie, een datawarehouse genaamd. Data warehousing is het laden van gegevens uit verschillende databronnen in een datawarehouse. Vervolgens kunnen verschillende strategieën worden toegepast om gegevens te analyseren om eindgebruikers te ondersteunen bij het nemen van zakelijke beslissingen. Bovendien kunnen de gegevens in het datawarehouse worden onderverdeeld in datamarts. Deze gegevensmarts bevatten gegevens voor een bepaalde set gebruikers. De personeelsafdeling kan bijvoorbeeld hun datamart gebruiken. De verkoopafdeling kan de verkoopbeurs gebruiken enzovoort.
Figuur 2: Data Warehouse
Datawarehouses zijn onderwerpgericht, geïntegreerd, tijdsvariant en niet-vluchtig. Een datawarehouse is onderwerpgericht. Het geeft kennis over een onderwerp dan de lopende operaties. Het is geïntegreerd omdat het gegevens uit verschillende gegevensbronnen samenvoegt. De magazijngegevens bieden informatie met betrekking tot een specifieke periode. Het is dus tijdsvariant. Ten slotte biedt het niet-volatiliteit omdat, na het laden van gegevens in het magazijn, de gegevens niet moeten worden verwijderd of bijgewerkt. Kort gezegd, data warehousing is gunstig voor het nemen van beslissingen voor de organisatie.
Datamining is het proces van het ontdekken van patronen in grote gegevenssets met methoden op het snijvlak van machine learning, statistieken en databasesystemen. Data warehousing is het proces waarbij gegevens uit meerdere gegevensbronnen worden geëxtraheerd, getransformeerd en geladen tot een centrale locatie, een gegevensmagazijn genaamd.
Bij datamining worden de gegevens regelmatig geanalyseerd. De gegevens worden periodiek opgeslagen in data warehousing.
Datamining analyseert een steekproef van gegevens, terwijl data warehousing een enorme hoeveelheid gegevens opslaat.
Datamining ontdekt patronen in gegevens voor betere besluitvorming. Aan de andere kant biedt data warehousing een mechanisme voor een organisatie om een enorme hoeveelheid gegevens op te slaan.
Het verschil tussen datamining en data warehousing is dat datamining het proces is van het identificeren van patronen uit een enorme hoeveelheid data, terwijl data warehousing het proces is van het integreren van data van meerdere databronnen naar een centrale locatie. Gewoonlijk voeren technici data warehousing uit en zakelijke gebruikers voeren datamining uit met de hulp van technici.
1. Datamining met R | Data Mining Tutorial voor beginners | R zelfstudie voor beginners | Edureka, Edureka !, 8 nov. 2017, hier beschikbaar.
2. Data Warehouse Tutorial voor beginners Data Warehouse-concepten | Data Warehousing | Edureka, Edureka !, 22 juni 2017, hier beschikbaar.
1. "Data Mining" door Arbeck - Eigen werk (CC BY 3.0) via Commons Wikimedia
2. "Overzicht datawarehouse" door Hhultgren - Eigen werk (Public Domain) via Commons Wikimedia