De grootste verschil tussen ETL en Data Warehouse is dat het ETL is het proces waarbij gegevens worden geëxtraheerd, getransformeerd en geladen om het in een datawarehouse op te slaan, terwijl het datawarehouse een centrale locatie is die wordt gebruikt voor het opslaan van geconsolideerde gegevens uit meerdere gegevensbronnen.
Een datawarehouse is een systeem dat helpt om gegevens te analyseren, te rapporteren en visualiseren om zakelijke beslissingen te nemen. Het is onderwerpgericht, geïntegreerd, tijdsvariant en niet-vluchtig. Er zijn echter verschillende stappen die moeten worden gevolgd voordat de gegevens in een datawarehouse worden opgeslagen. Dit proces wordt ETL genoemd. Het gaat om het extraheren van gegevens, transformeren en uiteindelijk laden in een datawarehouse. Het verschil tussen ETL en Data Warehouse komt daarom voort uit deze basisbegrippen.
1. Wat is ETL
- Definitie, functionaliteit
2. Wat is een datawarehouse
- Definitie, functionaliteit
3. Wat is het verschil tussen ETL en Data Warehouse
- Vergelijking van belangrijke verschillen
Data Warehouse, ETL
ETL staat voor Extract, Transform en Load. In dit proces worden de gegevens eerst uit meerdere gegevensbronnen geëxtraheerd. Vervolgens wordt het getransformeerd en geladen in het datawarehouse. ETL duidt dit hele proces aan. IBM Data Stage, Informatica en Microsoft Integration-services zijn enkele ETL-tools op bedrijfsniveau. Laten we nu elke stap van ETL in meer detail bekijken.
Extractie is de eerste stap. Het gaat om het extraheren van gegevens uit verschillende gegevensbronnen, zoals databases. Een belangrijk feit om op te merken tijdens het uitvoeren van de extractie, is dat dit de prestaties of reactietijd van de oorspronkelijke gegevensbron niet zou beïnvloeden. Daarom zijn er verschillende data-extractiestrategieën.
Volledige extractie - Dit omvat het extraheren van alle gegevens uit alle gegevensbronnen. Het belangrijkste gebruik van deze strategie is om het datawarehouse in de beginfase te laden of te laden wanneer het moeilijk is om de gewijzigde gegevens te identificeren.
Gedeeltelijke extractie (met updatemelding) - Deze strategie is eenvoudiger en sneller dan volledige extractie. Het omvat het extraheren van alleen de gewijzigde gegevens.
Gedeeltelijke extractie (zonder updatemelding) - Het gaat om het extraheren van de gegevens op basis van bepaalde belangrijke functies. Als er bijvoorbeeld tot gisteren al geëxtraheerde gegevens zijn, is het mogelijk om de gegevens van vandaag te extraheren en de wijzigingen daarin te identificeren.
De geëxtraheerde gegevens zijn onbewerkte gegevens, dus het is niet erg handig. Daarom vindt datatransformatie in de volgende stap plaats. Het omvat het opschonen, in kaart brengen en converteren van de gegevens. Basistransformatie taken zijn als volgt:
Selectie - Selecteer de vereiste gegevens
In kaart brengen - De gegevens opzoeken uit verschillende opzoekbestanden en de gegevens aanpassen die moeten worden gewijzigd
Data-opschoning -De gegevens opschonen om ze te standaardiseren
Summarization - Aggregatie en consolidatie van de gegevens
Belangrijke taken voor gegevenstransformatie zijn als volgt.
standaardiseren - Omdat de gegevens afkomstig zijn van verschillende bronnen, is standaardisatie vereist
Tekensetconversie en coderingsafhandeling - De gegevens omzetten in een gedefinieerde codering
Het berekenen van waarden - Berekenen en afleiden van nieuwe kolommen uit de bestaande kolommen.
Gemorst en samengevoegde velden - Een veld splitsen in meerdere velden of meerdere velden combineren in een enkel veld op basis van de vereisten.
Conversie van meeteenheden - Omzetting van gegevenstijd, enz.
Summarization - Aggregatie en consolidatie van de gegevens.
Dubbelen verwijderen - De dubbele gegevens verwijderen die zijn ontvangen van meerdere bronnen.
Dit is het proces waarbij de voorbereide gegevens worden opgehaald en opgeslagen in het datawarehouse. Er zijn verschillende laadtechnieken.
Initiële belasting - Het datawarehouse voor de eerste keer laden.
Incrementele belasting - Doorlopende wijzigingen zonodig periodiek doorvoeren.
Volledig vernieuwen - De inhoud van een of meer tabellen volledig wissen en opnieuw laden met nieuwe gegevens.
Datawarehouse is een systeem dat het business intelligence-proces ondersteunt. Het zet de gegevens om in zinvolle informatie voor het analyseren van het bedrijf. Daarom is het een waardevolle hulpbron voor het management van een organisatie bij het nemen van beslissingen.
Bovendien heeft een organisatie verschillende databases zoals MySQL en MSSQL. Al deze gegevens worden geëxtraheerd, getransformeerd en geladen in het datawarehouse. Vervolgens worden de gegevens geïntegreerd en verwerkt. Ten slotte gebruiken de gegevensanalisten, gegevenswetenschappers en managers deze gegevens om zakelijke inzichten te verkrijgen.
Bovendien zijn de gegevens in een datawarehouse verdeeld in datamarts. Elk van hen bevat gegevens voor specifieke gebruikers. Ze verbeteren de beveiliging en gegevensintegriteit. Gewoonlijk bevindt een datawarehouse zich op een afzonderlijke locatie van de normale operationele databases.
ETL is het proces voor het extraheren, transformeren en laden van gegevens in een datawarehousing-omgeving. Een datawarehouse daarentegen is een federatieve repository voor alle gegevens die worden verzameld door de verschillende operationele systemen van een onderneming. Dit is dus het fundamentele verschil tussen ETL en datawarehouse.
ETL is een proces dat wordt gebruikt om de gegevens aan te passen voordat ze in het datawarehouse worden opgeslagen. Een datawarehouse wordt gebruikt om zakelijke beslissingen te nemen. Bovendien verbetert het de kwaliteit en consistentie van gegevens en verbetert het de bedrijfsinformatie. Daarom bestaat er een verschil tussen ETL en datawarehouse op basis van het individuele gebruik.
In breif is het fundamentele verschil tussen ETL en datawarehouse dat de ETL het proces is van het extraheren, transformeren en laden van de gegevens om deze op te slaan in een datawarehouse, terwijl een datawarehouse een centrale locatie is die wordt gebruikt om geconsolideerde gegevens op te slaan van meerdere data bronnen.
1. "3 - ETL-zelfstudie Extract Transform and Load ", Vikram Takkar, 8 september 2015, hier beschikbaar.
2. "Wat is Data Warehouse? - Definitie van WhatIs.com. "SearchDataManagement, hier beschikbaar.
1. "KrisangelChap2-ETL" door Kkristangel - Eigen werk (CC BY-SA 4.0) via Commons Wikimedia
2. "Overzicht datawarehouse" door Hhultgren - Eigen werk (Public Domain) via Commons Wikimedia