Indhold
- Den krævede datatype
- Test af godhed
- Beregning af Chi-Square-statistikken
- Fortolkning af Chi-Square-statistikken
Eksperimenter tester forudsigelser. Disse forudsigelser er ofte numeriske, hvilket betyder, at når forskere indsamler data, forventer de, at tallene bryder sammen på en bestemt måde. Data fra den virkelige verden matcher sjældent nøjagtigt de forudsigelser, som videnskabsmænd foretager, så forskere har brug for en test for at fortælle dem, om forskellen mellem observerede og forventede tal er på grund af tilfældig chance, eller på grund af en uforudset faktor, der vil tvinge forskeren til at justere den underliggende teori . En chi-square-test er et statistisk værktøj, som forskere bruger til dette formål.
Den krævede datatype
Du har brug for kategoriske data for at bruge en chi-square-test. Et eksempel på kategoriske data er antallet af mennesker, der besvarede et spørgsmål "ja" i forhold til antallet af mennesker, der besvarede spørgsmålet "nej" (to kategorier), eller antallet af frøer i en befolkning, der er grøn, gul eller grå ( tre kategorier). Du kan ikke bruge en chi-square-test på kontinuerlige data, som f.eks. Kan indsamles fra en undersøgelse, der spørger folk, hvor høje de er. Fra en sådan undersøgelse får du en bred vifte af højder. Hvis du dog opdeler højderne i kategorier som "under 6 fod høj" og "6 fod høje og derover", kan du derefter bruge en chi-square-test på dataene.
Test af godhed
En god-af-fit-test er en almindelig og måske den enkleste test, der udføres ved hjælp af chi-square-statistikken. I en god-af-fit-test foretager videnskabsmanden en specifik forudsigelse om de tal, hun forventer at se i hver kategori af hendes data. Derefter indsamler hun data fra den virkelige verden - kaldet observerede data - og bruger chi-square-testen for at se, om de observerede data stemmer overens med hendes forventninger.
Forestil dig for eksempel, at en biolog studerer arvemønstre i en frøart. Blandt 100 afkom fra et sæt frøforældre fører biologens genetiske model hende til at forvente 25 gule afkom, 50 grønne afkom og 25 grå afkom. Hvad hun faktisk observerer, er 20 gule afkom, 52 grønne afkom og 28 grå afkom. Støttes hendes forudsigelse, eller er hendes genetiske model forkert? Hun kan bruge en chi-square test for at finde ud af det.
Beregning af Chi-Square-statistikken
Begynd med at beregne chi-kvadratstatistikken ved at trække hver forventet værdi fra dens tilsvarende observerede værdi og kvadrere hvert resultat. Beregningen af eksemplet med frøafkom ser sådan ud:
gul = (20 - 25) ^ 2 = 25 grøn = (52 - 50) ^ 2 = 4 grå = (28 - 25) ^ 2 = 9
Del nu hvert resultat med dets forventede værdi.
gul = 25 ÷ 25 = 1 grøn = 4 ÷ 50 = 0,08 grå = 9 ÷ 25 = 0,36
Til sidst tilsættes svarene fra det forrige trin.
Chi-kvadrat = 1 + 0,08 + 0,36 = 1,44
Fortolkning af Chi-Square-statistikken
Chi-kvadratstatistikken fortæller dig, hvor forskellige dine observerede værdier var fra dine forudsagte værdier. Jo højere tal, jo større er forskellen. Du kan bestemme, om din chi-kvadratværdi er for høj eller lav nok til at understøtte din forudsigelse ved at se, om den er under en bestemt kritisk værdi på en chi-kvadratisk distributionstabel. Denne tabel matcher chi-kvadratværdier med sandsynligheder, kaldet p-værdier. Specifikt fortæller tabellen sandsynligheden for, at forskellene mellem dine observerede og forventede værdier simpelthen skyldes tilfældig chance eller om en anden faktor er til stede. Hvis en p-værdi er 0,05 eller mindre, skal du afvise din forudsigelse for en god-af-fit-test.
Du skal bestemme grader af frihed (df) i dine data, før du kan slå den kritiske chi-kvadratværdi op i en distributionstabel. Frihedsgrader beregnes ved at trække 1 fra antallet af kategorier i dine data. Der er tre kategorier i dette eksempel, så der er 2 frihedsgrader. Et blik på denne chi-square distributionstabel fortæller dig, at den kritiske værdi for en 0,05 sandsynlighed for 2 grader af frihed er 5,99. Dette betyder, at så længe din beregnede chi-square-værdi er mindre end 5,99, er dine forventede værdier, og dermed den underliggende teori, gyldige og understøttede. Da chi-kvadratstatistikken for frøafkomens data var 1,44, kan biologen acceptere hendes genetiske model.