Indhold
En outlier er en værdi i et datasæt, der er langt fra de andre værdier. Outliers kan være forårsaget af eksperimentelle eller målefejl eller af en population med lang haler. I de førstnævnte tilfælde kan det være ønskeligt at identificere outliers og fjerne dem fra data, inden der udføres en statistisk analyse, fordi de kan smide resultaterne af, så de ikke nøjagtigt repræsenterer prøvepopulationen. Den enkleste måde at identificere outliers er med kvartilmetoden.
Sorter dataene i stigende rækkefølge. Tag f.eks. Datasættet {4, 5, 2, 3, 15, 3, 3, 5}. Sorteret er eksemplet datasæt {2, 3, 3, 3, 4, 5, 5, 15}.
Find medianen. Dette er det antal, hvor halvdelen af datapunkterne er større, og halvdelen er mindre. Hvis der er et jævnt antal datapunkter, er de midterste to gennemsnit. For det eksempelvis datasæt er mellempunkterne 3 og 4, så medianen er (3 + 4) / 2 = 3,5.
Find det øverste kvartil, Q2; dette er datapunktet, hvor 25 procent af dataene er større. Hvis datasættet er jævnt, gennemsnit de 2 punkter omkring kvartilet. For eksemplet datasæt er dette (5 + 5) / 2 = 5.
Find den nederste kvartil, Q1; dette er datapunktet, hvor 25 procent af dataene er mindre. Hvis datasættet er jævnt, gennemsnit de 2 punkter omkring kvartilet. For eksempeldataene (3 + 3) / 2 = 3.
Træk den nederste kvartil fra den højere kvartil for at få interkvartilområdet, IQ. For eksemplet datasæt, Q2 - Q1 = 5 - 3 = 2.
Multiplicer interkvartilområdet med 1,5. Føj dette til den øverste kvartil, og træk den fra den nederste kvartil. Ethvert datapunkt uden for disse værdier er en mild outlier. For eksemplet er 1,5 x 2 = 3; således 3 - 3 = 0 og 5 + 3 = 8. Enhver værdi, der er mindre end 0 eller større end 8, ville være en mild outlier. Dette betyder, at 15 kvalificerer sig som en mild outlier.
Multiplicer interkvartilområdet med 3. Føj dette til den øverste kvartil, og træk det fra det nederste kvartil. Ethvert datapunkt uden for disse værdier er en ekstrem outlier. For eksemplet er 3 x 2 = 6; således 3 - 6 = –3 og 5 + 6 = 11. Så enhver værdi mindre end –3 eller større end 11 ville være en ekstrem outlier. Dette betyder, at 15 kvalificerer sig som en ekstrem outlier.