Indhold
- Beregning af gennemsnit
- Beregning af median
- Beregningstilstand
- Beregningsområde
- Beregning af standardafvigelse
Forenkle sammenligninger af antal sæt, især store sæt tal, ved at beregne centerværdierne ved hjælp af middel, tilstand og median. Brug områdene og standardafvigelserne for sætene til at undersøge datavariabiliteten.
Beregning af gennemsnit
Middelværdien identificerer den gennemsnitlige værdi af det sæt sæt. Overvej for eksempel datasættet, der indeholder værdierne 20, 24, 25, 36, 25, 22, 23.
For at finde middelværdien skal du bruge formlen: Middel er lig med summen af numrene i datasættet divideret med antallet af værdier i datasættet. I matematiske termer: Gennemsnit = (summen af alle termer) ÷ (hvor mange udtryk eller værdier i sættet).
Tilføj numrene i eksemplet datasæt: 20 + 24 + 25 + 36 + 25 + 22 + 23 = 175.
Del med antallet af datapunkter i sættet. Dette sæt har syv værdier, så divider med 7.
Indsæt værdierne i formlen for at beregne middelværdien. Gennemsnittet er lig med summen af værdierne (175) divideret med antallet af datapunkter (7). Da 175 ÷ 7 = 25, er gennemsnittet af dette datasæt lig med 25. Ikke alle middelværdier vil svare til et helt tal.
Beregning af median
Median identificerer midtpunktet eller mellemværdien af et sæt tal.
Sæt numrene i rækkefølge fra den mindste til den største. Brug eksemplet med værdier: 20, 24, 25, 36, 25, 22, 23. Placeret i rækkefølge bliver sættet: 20, 22, 23, 24, 25, 25, 36.
Da dette sæt af numre har syv værdier, er medianen eller værdien i midten 24.
Hvis antallet af tal har et jævnt antal værdier, beregnes gennemsnittet af de to centerværdier. Antag f.eks., At sæt med numre indeholder værdierne 22, 23, 25, 26. Midten ligger mellem 23 og 25. Tilføjelse af 23 og 25 giver 48. Ved at dividere 48 med to giver en medianværdi 24.
Beregningstilstand
Denne tilstand identificerer den mest almindelige værdi eller værdier i datasættet. Afhængigt af dataene kan der være en eller flere tilstande eller slet ingen tilstand.
Ligesom at finde medianen, skal du bestille datasættet fra det mindste til det største. I eksemplet er de ordrede værdier: 20, 22, 23, 24, 25, 25, 36.
En tilstand opstår, når værdier gentages. I eksemplet sættes værdien 25 to gange. Ingen andre tal gentages. Derfor er tilstanden værdien 25.
I nogle datasæt forekommer mere end en tilstand. Datasættet 22, 23, 23, 24, 27, 27, 29 indeholder to tilstande, en hver ved 23 og 27. Andre datasæt kan have mere end to tilstande, kan have tilstande med mere end to numre (som 23, 23 , 24, 24, 24, 28, 29: tilstand er lig 24) eller har måske slet ingen tilstande (som 21, 23, 24, 25, 26, 27, 29). Denne tilstand kan forekomme overalt i datasættet, ikke kun i midten.
Beregningsområde
Område viser den matematiske afstand mellem de laveste og højeste værdier i datasættet. Område måler datasættets variation. Et bredt interval angiver større variation i dataene, eller måske en enkelt outlier langt fra resten af dataene. Outliers kan skeve eller forskyde middelværdien nok til at påvirke dataanalyse.
I prøvegruppen er den laveste værdi 20 og den højeste værdi 36.
For at beregne rækkevidde trækkes den laveste værdi fra den højeste værdi. Da 36-20 = 16, er intervallet lig med 16.
I prøvesættet overstiger den høje dataværdi på 36 den forrige værdi, 25, med 11. Denne værdi synes ekstrem i betragtning af de andre værdier i sættet. Værdien af 36 er muligvis et udgående datapunkt.
Beregning af standardafvigelse
Standardafvigelse måler datasættets variation. Ligesom rækkevidde indikerer en mindre standardafvigelse mindre variation.
At finde standardafvigelse kræver en summering af den kvadratiske forskel mellem hvert datapunkt og middelværdien, tilføjelse af alle firkanter, dividering af denne sum med en mindre end antallet af værdier (N-1) og til sidst beregning af kvadratroten af udbyttet. Start matematisk med beregningen af middelværdien.
Beregn gennemsnittet ved at tilføje alle datapunktværdier og derefter dividere med antallet af datapunkter. I prøvedatasættet er 20 + 24 + 25 + 36 + 25 + 22 + 23 = 175. Del summen, 175, med antallet af datapunkter, 7 eller 175 ÷ 7 = 25. Gennemsnittet er lig med 25.
Træk derefter gennemsnittet fra hvert datapunkt, og kvadrat derefter hver forskel. Formlen ser sådan ud: ∑ (x-µ)2, hvor ∑ betyder sum, x repræsenterer hvert datasætværdi og µ repræsenterer middelværdien. Fortsættes med eksemplet, bliver værdierne: 20-25 = -5 og -52= 25; 24-25 = -1 og -12= 1; 25-25 = 0 og 02= 0; 36-25 = 11 og 112= 121; 25-25 = 0 og 02= 0; 22-25 = -3 og -32= 9; og 23-25 = -2 og -22=4.
Tilføjelse af de kvadratiske forskelle giver: 25 + 1 + 0 + 121 + 0 + 9 + 4 = 160.
Del summen af de kvadratiske forskelle med en mindre end antallet af datapunkter. Eksemplet datasæt har 7 værdier, så N-1 er lig med 7-1 = 6. Summen af de kvadratiske forskelle, 160 divideret med 6 er lig med ca. 26.6667.
Beregn standardafvigelsen ved at finde kvadratroten af opdelingen med N-1. I eksemplet er kvadratroden på 26.6667 lig med ca. 5.164. Derfor er standardafvigelsen lig med ca. 5.164.
Standardafvigelse hjælper med at evaluere data. Tal i datasættet, der falder inden for en standardafvigelse af middelværdien, er en del af datasættet. Tal, der falder uden for to standardafvigelser, er ekstreme værdier eller outliers. I eksemplet er værdien 36 mere end to standardafvigelser fra gennemsnittet, så 36 er en outlier. Outliers kan repræsentere forkerte data eller kan antyde uforudsete omstændigheder og bør overvejes nøje, når de fortolker data.