Data Mining versus Data Warehousing
Het proces van datamining verwijst naar een tak van de informatica die zich bezighoudt met het extraheren van patronen uit grote gegevenssets. Deze sets worden vervolgens gecombineerd met behulp van statistische methoden en van kunstmatige intelligentie. Datamining in de moderne bedrijfswereld is verantwoordelijk voor de transformatie van onbewerkte gegevens in bronnen van kunstmatige intelligentie. De gegevens worden gemanipuleerd en kunnen daardoor betrouwbare beslissingen nemen die kunnen worden gebruikt bij de besluitvorming. Dit geeft bedrijven een voordeel ten opzichte van concurrentie omdat ze beschikken over gegevenssets waarop kan worden vertrouwd om informatie te verstrekken. Datamining wordt ook gebruikt door organisaties in profileerpraktijken, waaronder marketing, bewaking van wetenschappelijke ontdekkingen en detectie van fraude.
Er zijn andere veel voorkomende termen die kunnen worden geassocieerd met datamining, zoals datavissen, data-baggerwerk of zelfs datacellping. Al deze wijzen naar verschillende variaties van datamining die worden gebruikt bij het bemonsteren van kleine gegevenssets die te klein kunnen zijn om statistische gevolgtrekkingen te produceren. Deze zijn echter van cruciaal belang bij het schetsen van de geldigheid van gegevens die in gebruik zijn en kunnen worden gebruikt bij het opstellen van een hypothese wanneer men ernaar uitziet een gegeven gegevenspopulatie te bereiken..
Een datawarehouse is daarentegen een term die een systeem beschrijft in een organisatie die wordt gebruikt bij het verzamelen van gegevens. Deze gegevens die worden verzameld door een datawarehouse, worden geleverd door de transactiesystemen, zoals facturen, inkooprecords of zelfs leningsrecords. De datarecords zijn afkomstig van de afzonderlijke creatiepunten en zijn samengebracht onder één dak dat het datawarehouse is. Deze gegevens worden vervolgens gerapporteerd en de rapportage wordt op geaggregeerde wijze uitgevoerd om gebruikers van de bedrijfsinformatie te helpen bij het nemen van geldige beslissingen. Het datawarehouse om effectief te kunnen werken vereist de gegevensbron, een database en een rapportagetool.
Het kan daarom worden gezegd dat een datawarehouse een database is die wordt gebruikt voor de specifieke doeleinden van rapportage over gegevens die zijn geanalyseerd. Deze gegevens zijn afkomstig van de verschillende systemen die zijn ingericht voor rapportage.
Om zijn functie te vervullen, onderhoudt het datawarehouse functies in drie verschillende lagen. Deze omvatten staging, integratie en toegang. Tijdens het stagingproces worden onbewerkte gegevens door ontwikkelaars opgeslagen voor het enige doel van analyse en ondersteuning. De integratielaag wordt gebruikt bij de integratie van gegevens en om een abstractieniveau te hebben van gebruikers van de gegevens. Ten slotte is de toegangslaag belangrijk om gegevens uit verschillende gebruikers van gegevens te halen.
Zowel datamining en data warehousing kan worden aangeduid als tools die worden gebruikt voor het verzamelen van business intelligence. Het belangrijkste verschil van beide is de manier waarop de bedrijfsinformatie wordt verzameld. Het kan daarom worden gezegd dat gegevens die goed zijn opgeslagen redelijk gemakkelijk kunnen worden ontgonnen en dus kunnen worden gebruikt. Het datawarehouse is dus verantwoordelijk voor het gemakkelijker maken van het werk van de datamining bij het huisvesten van alle relevante gegevens die op een centrale locatie moeten worden gedolven, in plaats van dat datamining op verschillende locaties naar gegevens moet blijven zoeken. Dit helpt besparen op de tijd besteed aan datamining en de middelen die worden gebruikt in de mijnbouw.
Samenvatting
Datamining is het proces waarbij gegevens worden geëxtraheerd uit grote gegevenssets.
Data warehousing is het proces waarbij alle relevante gegevens samen worden verzameld.
Zowel datamining als datawarehousing zijn hulpmiddelen voor het verzamelen van business intelligence.
Datamining is specifiek voor het verzamelen van gegevens.
Data warehousing is een hulpmiddel om tijd te besparen en de efficiëntie te verbeteren door gegevens van verschillende locaties uit verschillende delen van de organisatie bij elkaar te brengen.
Datawarehouse heeft drie lagen, namelijk staging, integratie en toegang.