Verschil tussen clustering en classificatie

De belangrijk verschil tussen clustering en classificatie is dat clustering is een niet-gesuperviseerde leertechniek die vergelijkbare instanties op basis van kenmerken groepeert, terwijl classificatie een begeleide leertechniek is die vooraf gedefinieerde tags toewijst aan instanties op basis van kenmerken.

Hoewel clustering en classificatie vergelijkbare processen lijken, is er een verschil tussen beide op basis van hun betekenis. In de wereld van datamining zijn clustering en classificatie twee soorten leermethoden. Beide methoden kenmerken objecten in groepen door een of meer functies.

INHOUD

1. Overzicht en belangrijkste verschil
2. Wat is clusteren
3. Wat is classificatie
4. Vergelijking zij aan zij - Clustering versus classificatie in tabelvorm
5. Samenvatting

Wat is clusteren?

Clustering is een methode om objecten zo te groeperen dat objecten met vergelijkbare kenmerken samenkomen en objecten met ongelijke functies uit elkaar gaan. Het is een veelgebruikte techniek voor statistische gegevensanalyse voor machine learning en datamining. Exploratieve data-analyse en generalisatie is ook een gebied dat clustering gebruikt.

Figuur 01: Clustering

Clustering behoort tot unsupervised data mining. Het is geen specifiek algoritme, maar het is een algemene methode om een ​​taak op te lossen. Daarom is het mogelijk om clustering te bereiken met behulp van verschillende algoritmen. Het juiste clusteralgoritme en parameterinstellingen zijn afhankelijk van de afzonderlijke gegevenssets. Het is geen automatische taak, maar het is een iteratief proces van ontdekking. Daarom is het noodzakelijk om gegevensverwerking en parametermodellering aan te passen totdat het resultaat de gewenste eigenschappen heeft bereikt. K-means-clustering en hiërarchische clustering zijn twee algemene clusteringalgoritmen in datamining.

Wat is classificatie?

Classificatie is een categorisatieproces dat een trainingsset met gegevens gebruikt om objecten te herkennen, te onderscheiden en te begrijpen. Classificatie is een begeleide leertechniek waarbij een trainingsset en correct gedefinieerde waarnemingen beschikbaar zijn.

Figuur 02: Classificatie

Het algoritme dat classificatie implementeert, is de classificator, terwijl de waarnemingen de instanties zijn. K-Nearest Neighbor-algoritme en beslissingsboom-algoritmen zijn de meest beroemde classificatie-algoritmen in datamining.

Wat is het verschil tussen clustering en classificatie?

Clustering is onbewaakt leren, terwijl classificatie een begeleide leertechniek is. Het groepeert vergelijkbare instanties op basis van functies, terwijl classificatie vooraf gedefinieerde tags toewijzen aan instanties op basis van functies. Clustering splitst de dataset in subsets om de instanties te groeperen met vergelijkbare functies. Het gebruikt geen gelabelde gegevens of een trainingsset. Aan de andere kant, categoriseer de nieuwe gegevens volgens de observaties van de trainingsset. De trainingsset is gelabeld.

Het doel van clustering is om een ​​reeks objecten te groeperen om te bepalen of er een relatie tussen bestaat, terwijl de classificatie tot doel heeft te vinden tot welke klasse een nieuw object behoort uit de verzameling van voorgedefinieerde klassen.

Samenvatting - Clustering versus classificatie

Clustering en classificatie kunnen vergelijkbaar lijken, omdat beide dataminingalgoritmen de dataset verdelen in subsets, maar het zijn twee verschillende leertechnieken, in datamining om betrouwbare informatie uit een verzameling onbewerkte gegevens te halen. Het verschil tussen clustering en classificatie is dat clustering een niet-gesuperviseerde leertechniek is die vergelijkbare instanties op basis van functies groepeert, terwijl classificatie een begeleide leertechniek is die vooraf gedefinieerde tags toewijst aan instanties op basis van kenmerken.

Afbeelding met dank aan:
1.”Cluster-2" door Cluster-2.gif: hellisp afgeleid werk: (Public Domain) via Wikimedia Commons  2. "Magnetisme" door John Aplessed - Eigen werk. (Public Domain) via Wikimedia Commons