Hoe de Centroid te vinden in een clusteranalyse

Posted on
Schrijver: Judy Howell
Datum Van Creatie: 1 Juli- 2021
Updatedatum: 15 November 2024
Anonim
K means clustering - finding centroid
Video: K means clustering - finding centroid

Inhoud

Clusteranalyse is een methode om gegevens in representatieve groepen te ordenen op basis van vergelijkbare kenmerken. Elk lid van het cluster heeft meer gemeen met andere leden van hetzelfde cluster dan met leden van de andere groepen. Het meest representatieve punt binnen de groep wordt het zwaartepunt genoemd. Gewoonlijk is dit het gemiddelde van de waarden van de gegevenspunten in het cluster.

    Organiseer de gegevens. Als de gegevens uit één variabele bestaan, kan een histogram geschikt zijn. Als het om twee variabelen gaat, grafiek de gegevens op een coördinatenvlak. Als u bijvoorbeeld naar de lengte en het gewicht van schoolkinderen in een klaslokaal kijkt, plot dan de gegevenspunten voor elk kind in een grafiek, waarbij het gewicht de horizontale as is en de lengte de verticale as. Als er meer dan twee variabelen bij betrokken zijn, kunnen matrices nodig zijn om de gegevens weer te geven.

    Groepeer de gegevens in clusters. Elk cluster moet bestaan ​​uit de gegevenspunten die het dichtst in de buurt zijn. In het voorbeeld van lengte en gewicht groepeert u gegevenspunten die dicht bij elkaar lijken te liggen. Het aantal clusters en of elk gegevenspunt zich in een cluster moet bevinden, kan afhankelijk zijn van de doeleinden van het onderzoek.

    Voeg voor elke cluster de waarden van alle leden toe.Als een gegevenscluster bijvoorbeeld bestaat uit de punten (80, 56), (75, 53), (60, 50) en (68,54), is de som van de waarden (283, 213).

    Deel het totaal door het aantal leden van het cluster. In het bovenstaande voorbeeld is 283 gedeeld door vier 70,75 en 213 gedeeld door vier is 53,25, dus de zwaartepunt van de cluster is (70,75, 53,25).

    Zet de clusterzwaartepunten uit en bepaal of punten dichter bij een zwaartepunt van een ander cluster liggen dan bij het zwaartepunt van hun eigen cluster. Als er punten dichter bij een ander zwaartepunt liggen, verdeel deze dan over de cluster met het dichtste zwaartepunt.

    Herhaal stap 3, 4 en 5 totdat alle gegevenspunten zich in het cluster bevinden met het zwaartepunt waar ze zich het dichtst bij bevinden.

    Tips