Indhold
Cluster analyse er en metode til organisering af data i repræsentative grupper baseret på lignende egenskaber. Hvert medlem af klyngen har mere til fælles med andre medlemmer af den samme klynge end med medlemmer af de andre grupper. Det mest repræsentative punkt inden for gruppen kaldes centroid. Normalt er dette middelværdien af værdierne for datapunkterne i klyngen.
Organiser dataene. Hvis dataene består af en enkelt variabel, kan et histogram muligvis være passende. Hvis der er to variabler, skal du tegne dataene på et koordinatplan. Hvis du f.eks. Kiggede på skolebørns højde og vægt i et klasseværelse, skal du placere datapunkterne for hvert barn på en graf, idet vægten er den vandrette akse og højden er den lodrette akse. Hvis der er mere end to variabler involveret, kan matrixer være nødvendige for at få vist dataene.
Gruppér dataene i klynger. Hver klynge skal bestå af de datapunkter, der er tættest på den. I eksemplet højde og vægt skal du gruppere alle datapunkter, der ser ud til at være tæt sammen. Antallet af klynger, og om hvert datapunkt skal være i en klynge, kan afhænge af undersøgelsens formål.
For hver klynge skal du tilføje værdierne for alle medlemmer.For eksempel, hvis en klynge af data bestod af punkterne (80, 56), (75, 53), (60, 50) og (68,54), ville summen af værdierne være (283, 213).
Del det samlede antal med medlemmerne af klyngen. I eksemplet ovenfor er 283 divideret med fire 70,75, og 213 divideret med fire er 53,25, så klyngens centroid er (70,75, 53,25).
Indsæt klyngecenterroiderne, og bestemm, om nogen punkter er tættere på en centroid i en anden klynge, end de er til centroidet i deres egen klynge. Hvis nogle punkter er tættere på en anden centroid, skal du distribuere dem til klyngen, der indeholder den tættere centroid.
Gentag trin 3, 4 og 5, indtil alle datapunkter er i klyngen, der indeholder den centroid, som de er tættest på.