Datamining versus Data Warehousing
Data Mining en Data Warehousing zijn beide zeer krachtige en populaire technieken voor het analyseren van gegevens. Gebruikers die geneigd zijn om statistieken te gebruiken, gebruiken Data Mining. Ze gebruiken statistische modellen om te zoeken naar verborgen patronen in gegevens. Data-mijnwerkers zijn geïnteresseerd in het vinden van bruikbare relaties tussen verschillende data-elementen, wat uiteindelijk winstgevend is voor bedrijven. Maar aan de andere kant hebben datatexperts die de dimensies van een bedrijf kunnen analyseren, de neiging om Data Warehouses te gebruiken.
Datamining is ook bekend als Knowledge Discovery in data (KDD). Zoals hierboven vermeld, is het een gebied van informatica, dat zich bezighoudt met extractie van voorheen onbekende en interessante informatie uit onbewerkte gegevens. Vanwege de exponentiële groei van gegevens, vooral in gebieden zoals bedrijven, is datamining een zeer belangrijk hulpmiddel geworden om deze enorme hoeveelheid gegevens om te zetten in business intelligence, omdat handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals sociale netwerkanalyse, fraudedetectie en marketing. Datamining gaat meestal over de volgende vier taken: clustering, classificatie, regressie en associatie. Clustering identificeert vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens en omvat doorgaans de volgende stappen: voorverwerking van gegevens, ontwerpen van modellering, leren / kenmerken selecteren en evalueren / valideren. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie zoekt relaties tussen variabelen. Datamining wordt meestal gebruikt om vragen te beantwoorden, zoals wat zijn de belangrijkste producten die kunnen helpen om hoge winst te behalen volgend jaar in Wal-Mart?
Zoals hierboven vermeld, wordt Data warehousing ook gebruikt voor het analyseren van gegevens, maar door verschillende sets gebruikers en een iets ander doel voor ogen. Als het bijvoorbeeld om de detailhandel gaat, houden gebruikers van Data warehousing zich meer bezig met wat voor soort aankopen populair zijn bij klanten, zodat de resultaten van de analyse de klant kunnen helpen door de klantervaring te verbeteren. Maar Data-mijners veronderstellen eerst een hypothese, zoals welke klanten een bepaald type product kopen en analyseren de gegevens om de hypothese te testen. Data warehousing zou kunnen worden uitgevoerd door een grote retailer die zijn winkels voor het eerst opslaat met dezelfde maten van producten om later te ontdekken dat New York-winkels veel kleiner voorraad verkopen dan in Chicago. Dus, door naar dit resultaat te kijken, kan de winkel de winkel in New York opslaan met kleinere maten in vergelijking met Chicago-winkels.
Dus, zoals je duidelijk kunt zien, lijken deze twee soorten analyse met het blote oog van dezelfde aard. Beiden zijn bezorgd over het verhogen van de winst op basis van de historische gegevens. Maar er zijn natuurlijk belangrijke verschillen. Eenvoudig gezegd zijn Data Mining en Data Warehousing gericht op het leveren van verschillende soorten analyses, maar zeker voor verschillende typen gebruikers. Met andere woorden, Data Mining zoekt naar correlaties en patronen om een statistische hypothese te ondersteunen. Maar Data Warehousing beantwoordt een relatief bredere vraag en het snijdt en dobbert data van daaruit om manieren te herkennen om in de toekomst te verbeteren.