KDD versus datamining
KDD (Knowledge Discovery in Databases) is een gebied van de informatica, dat de hulpmiddelen en theorieën bevat om mensen te helpen bij het extraheren van nuttige en voorheen onbekende informatie (dat wil zeggen kennis) uit grote collecties van gedigitaliseerde gegevens. KDD bestaat uit verschillende stappen en Data Mining is er een van. Data Mining is de toepassing van een specifiek algoritme om patronen uit gegevens te extraheren. Niettemin worden KDD en Data Mining door elkaar gebruikt.
Wat is KDD?
Zoals hierboven vermeld, is KDD een gebied van informatica, dat zich bezighoudt met extractie van voorheen onbekende en interessante informatie uit onbewerkte gegevens. KDD is het hele proces van het proberen betekenis te geven aan gegevens door geschikte methoden of technieken te ontwikkelen. Dit proces heeft betrekking op het in kaart brengen van gegevens op een laag niveau in andere vormen die compacter, abstracter en bruikbaarder zijn. Dit wordt bereikt door korte rapporten te maken, het proces van het genereren van gegevens te modelleren en voorspellende modellen te ontwikkelen die toekomstige gevallen kunnen voorspellen. Vanwege de exponentiële groei van gegevens, vooral op gebieden zoals bedrijven, is KDD een zeer belangrijk proces geworden om deze enorme hoeveelheid gegevens om te zetten in business intelligence, omdat handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals sociale netwerkanalyse, fraudedetectie, wetenschap, investeringen, productie, telecommunicatie, gegevens opschoning, sport, informatieherstel en grotendeels voor marketing. KDD wordt meestal gebruikt om vragen te beantwoorden, zoals wat zijn de belangrijkste producten die kunnen helpen om hoge winst te behalen volgend jaar in Wal-Mart ?. Dit proces kent verschillende stappen. Het begint met het ontwikkelen van een goed begrip van het toepassingsdomein en het doel en vervolgens het creëren van een doeldataset. Dit wordt gevolgd door opschonen, voorbewerking, reductie en projectie van gegevens. De volgende stap is Data Mining gebruiken (hieronder uitgelegd) om het patroon te identificeren. Ten slotte wordt ontdekte kennis geconsolideerd door te visualiseren en / of te interpreteren.
Wat is Data Mining?
Zoals hierboven vermeld, is Data Mining slechts een stap binnen het algemene KDD-proces. Er zijn twee belangrijke Data Mining-doelen zoals gedefinieerd door het doel van de applicatie, en ze zijn met name verificatie of ontdekking. Verificatie is het verifiëren van de hypothese van de gebruiker over gegevens, terwijl zoeken automatisch interessante patronen vindt. Er zijn vier belangrijke taken voor datamining: clustering, classificatie, regressie en associatie (samenvatting). Clustering identificeert vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie zoekt relaties tussen variabelen. Vervolgens moet het specifieke dataminingalgoritme worden geselecteerd. Afhankelijk van het doel kunnen verschillende algoritmen zoals lineaire regressie, logistische regressie, beslissingsbomen en Naïeve Bayes worden geselecteerd. Vervolgens worden interessante patronen in een of meer representatieve vormen doorzocht. Ten slotte worden modellen geëvalueerd met behulp van voorspellende nauwkeurigheid of begrijpelijkheid.
Wat is het verschil tussen KDD en datamining?
Hoewel de twee termen KDD en Data Mining zwaar door elkaar worden gebruikt, verwijzen ze naar twee gerelateerde maar enigszins andere concepten. KDD is het algehele proces om kennis uit gegevens te halen, terwijl datamining een stap in het KDD-proces is, dat zich bezighoudt met het identificeren van patronen in gegevens. Met andere woorden, Data Mining is slechts de toepassing van een specifiek algoritme op basis van het algemene doel van het KDD-proces.