Verschil tussen beslissingsboom en willekeurig bos

De grootste verschil tussen beslisboom en willekeurig bos is dat een beslissingsboom is een grafiek die een vertakkingsmethode gebruikt om elke mogelijke uitkomst van een beslissing te illustreren, terwijl een willekeurig bos een reeks beslissingsbomen is die het uiteindelijke resultaat geeft op basis van de resultaten van al zijn beslisbomen..

Machine learning is een toepassing van Artificial Intelligence, die een systeem het vermogen geeft om te leren en te verbeteren op basis van ervaringen uit het verleden. Beslissingsboom en willekeurig bos zijn twee technieken in machine learning. Een beslissingsboom brengt de mogelijke uitkomsten van een reeks gerelateerde keuzes in kaart. Het is populair omdat het eenvoudig en gemakkelijker te begrijpen is. Wanneer de dataset veel groter wordt, is een enkele beslissingsboom niet voldoende om de voorspelling te vinden. Een willekeurig bos, een verzameling beslisbomen, is een alternatief voor dit probleem. De uitvoer van het willekeurige bos is gebaseerd op de uitvoer van al zijn beslissingsbomen.

Key Areas Covered

1. Wat is een beslissingsboom
     - Definitie, functionaliteit, voorbeelden
2. Wat is een willekeurig bos
     - Definitie, functionaliteit, voorbeelden
3. Verschil tussen beslissingsboom en willekeurig bos
     - Vergelijking van belangrijke verschillen

Sleutelbegrippen

Beslissingsboom, machine learning, willekeurige bos

Wat is beslissingsboom

Een beslissingsboom is een boomvormdiagram dat wordt gebruikt om een ​​koers te bepalen. Elke tak van de boom vertegenwoordigt een mogelijke beslissing, voorkomen of reactie. 

Er zijn verschillende termen verbonden aan een beslissingsboom. Entropie is de meting van onvoorspelbaarheid in de dataset. Na het splitsen van de gegevensset neemt het niveau van de entropie af naarmate de onvoorspelbaarheid afneemt. Informatie-winst is de afname van de entropie na spugen van de dataset. Het is belangrijk om de gegevens zodanig te splitsen dat de informatiewinst hoger wordt. De uiteindelijke beslissingen of de classificaties worden de bladknopen genoemd. Het bovenste of het belangrijkste knooppunt wordt het basisknooppunt genoemd. De gegevensset moet worden gesplitst totdat de uiteindelijke entropie nul wordt.

Een eenvoudige beslissingsboom is als volgt.

Figuur 1: beslissingsboom

Boven beslissingsboom classificeert een reeks vruchten. Er zijn 4 druiven, 2 appels en 2 sinaasappels. Wanneer we de diameter van minder dan 5 in beschouwing nemen, worden de druiven in een kant ingedeeld, terwijl sinaasappelen en appels in de andere kant vallen. Druiven kunnen niet verder worden geclassificeerd omdat het nul-entropie heeft. Wanneer gecategoriseerd op basis van de kleur, d.w.z. of het fruitrood rood is of niet, worden appelen in één zijde geclassificeerd terwijl sinaasappels aan de andere kant worden geclassificeerd. Deze beslissingsboom classificeert dus een appel, druif of sinaasappel met 100% nauwkeurigheid.

Over het algemeen is een beslissingsboom eenvoudig te begrijpen, gemakkelijker te interpreteren en te visualiseren. Er is niet veel data-voorbereiding voor nodig. Het kan zowel numerieke als categorische gegevens verwerken. Aan de andere kant kan de ruis in gegevens overfitteren veroorzaken. Bovendien kan het model ook instabiel worden door kleine variaties.

Wat is Random Forest

Willekeurig bos is een methode die werkt door het construeren van meerdere beslissingsbomen tijdens de trainingsfase. De beslissingen van de meerderheid van de bomen zijn de uiteindelijke beslissing van het willekeurige bos. Een eenvoudig voorbeeld is als volgt.

Stel dat er een set vruchten is (kersen, appels en sinaasappels). Hieronder volgen de drie beslissingsbomen die deze drie fruitsoorten categoriseren.

Figuur 2: beslissingsboom 1

Figuur 3: Beslissingsboom 2

Figuur 4: Beslissingsboom 3

Een nieuw fruit waarvan de diameter 3 is, wordt aan het model gegeven. Deze vrucht is oranje van kleur en groeit in de zomer. De eerste beslissingsboom zal het als een sinaasappel categoriseren. De tweede beslissingsboom categoriseert het als een kers, terwijl de derde beslissingsboom het als een sinaasappel zal categoriseren. Bij het beschouwen van alle drie de bomen zijn er twee uitgangen voor oranje. Daarom is de uiteindelijke uitvoer van het willekeurige bos een sinaasappel.

Over het algemeen levert het willekeurige forest accurate resultaten op een grotere dataset. Het vermindert ook het risico van overfitting.

Verschil tussen beslissingsboom en willekeurig bos

Definitie

Een beslissingsboom is een beslissingsondersteunende tool die een boomachtige grafiek of een beslissingsmodel gebruikt en de mogelijke gevolgen ervan, waaronder de kans op uitkomsten van gebeurtenissen, resourcekosten en nut. Willekeurige bossen is een methode voor het leren van een ensemble die werkt door een groot aantal beslissingsbomen te construeren tijdens de trainingstijd en de klasse uit te voeren afhankelijk van de individuele bomen..

overfitting

Er bestaat een mogelijkheid tot overfitting in een beslissingsboom. Het gebruik van meerdere bomen in het willekeurige bos vermindert het risico van overfitting.

Nauwkeurigheid

Een willekeurig forest geeft meer accurate resultaten dan een beslissingsboom.

ingewikkeldheid

Een beslissingsboom is eenvoudiger en gemakkelijker te begrijpen, te interpreteren en te visualiseren dan een willekeurig bos, dat verhoudingsgewijs complexer is.

Conclusie

Het verschil tussen beslissingsboom en willekeurig bos is dat een beslissingsboom een ​​grafiek is die een vertakkingsmethode gebruikt om elke mogelijke uitkomst van een beslissing te illustreren, terwijl een willekeurig bos een reeks beslissingsbomen is die het uiteindelijke resultaat geeft op basis van de uitvoer van alle zijn beslissingsbomen.

Referentie:

1. Random Forest Algorithm - Random Forest Explained | Random Forest in Machine Learning , Simplilearn, 12 maart 2018, hier beschikbaar.