Hiërarchisch versus partitieclustering
Clustering is een machine-leertechniek voor het analyseren van gegevens en het indelen in groepen van vergelijkbare gegevens. Deze groepen of verzamelingen vergelijkbare gegevens staan bekend als clusters. Clusteranalyse kijkt naar clusteringalgoritmen die clusters automatisch kunnen identificeren. Hiërarchisch en partitioneel zijn twee van dergelijke klassen van clusteringalgoritmen. Hiërarchische clusteringalgoritmen breken de gegevens op in een hiërarchie van clusters. Paritionele algoritmen verdelen de dataset in wederzijds disjuncte partities.
Wat is hiërarchische clustering?
Hiërarchische clusteringalgoritmen herhalen de cyclus waarbij kleinere clusters worden samengevoegd tot grotere of grotere clusters worden gedeeld tot kleinere clusters. Hoe dan ook, het produceert een hiërarchie van clusters die een dendogram wordt genoemd. Agglomerative Clustering-strategie maakt gebruik van de bottom-up benadering van het samenvoegen van clusters met grotere, terwijl divisive clustering-strategie de top-down benadering gebruikt van splitsen in kleinere. Meestal wordt de hebzuchtige benadering gebruikt om te beslissen welke grotere / kleinere clusters worden gebruikt voor samenvoegen / delen. Euclidische afstand, Manhattan-afstand en cosinusovereenkomst zijn enkele van de meest gebruikte vergelijkingsmetrieken voor numerieke gegevens. Voor niet-numerieke gegevens worden statistieken zoals de Hamming-afstand gebruikt. Het is belangrijk op te merken dat de werkelijke waarnemingen (instanties) niet nodig zijn voor hiërarchische clustering, omdat alleen de matrix van afstanden voldoende is. Dendogram is een visuele weergave van de clusters, die de hiërarchie heel duidelijk weergeeft. De gebruiker kan verschillende clustering verkrijgen afhankelijk van het niveau waarop het dendogram wordt gesneden.
Wat is Partitional Clustering?
Partitionele clusteringalgoritmen genereren verschillende partities en evalueren ze vervolgens op basis van een of ander criterium. Ze worden ook niet-hiërarchisch genoemd omdat elk exemplaar in exact één van k-uitsluitende clusters wordt geplaatst. Omdat slechts één set clusters de uitvoer is van een typisch partitioneel clusteringalgoritme, moet de gebruiker het gewenste aantal clusters invoeren (gewoonlijk k genoemd). Een van de meest gebruikte partitionele clusteringalgoritmen is het k-middelen-clusteringalgoritme. De gebruiker moet het aantal clusters (k) opgeven voordat hij start en het algoritme initieert eerst de centra (of zwaartepunten) van de k-partities. In een notendop, k-means clustering algoritme wijst vervolgens leden toe op basis van de huidige centra en opnieuw geschatte centra op basis van de huidige leden. Deze twee stappen worden herhaald totdat een bepaalde objectieffunctie in de cluster-overeenkomst en de objectieffunctie van ongelijkwaardigheid van de clusters zijn geoptimaliseerd. Daarom is een verstandige initialisatie van centra een zeer belangrijke factor bij het verkrijgen van kwaliteitsresultaten van partitionele clusteringalgoritmen.
Wat is het verschil tussen hiërarchische en partitionele clustering?
Hiërarchische en partitieclustering hebben belangrijke verschillen in looptijd, aannames, invoerparameters en resulterende clusters. Typisch, partitionele clustering is sneller dan hiërarchische clustering. Hiërarchische clustering vereist alleen een gelijkheidsmaatregel, terwijl partiële clustering sterkere aannames vereist, zoals het aantal clusters en de begincentra. Hiërarchische clustering vereist geen invoerparameters, terwijl partitieclusteringalgoritmen vereisen dat het aantal clusters begint te lopen. Hiërarchische clustering geeft een veel betekenisvollere en subjectievere verdeling van clusters, maar partitionele clustering resulteert in exact k clusters. Hiërarchische clusteringalgoritmen zijn meer geschikt voor categorische gegevens zolang een similariteitsmaat dienovereenkomstig kan worden gedefinieerd.