Ulemperne ved lineær regression

Posted on
Forfatter: Peter Berry
Oprettelsesdato: 19 August 2021
Opdateringsdato: 13 November 2024
Anonim
Ulemperne ved lineær regression - Videnskab
Ulemperne ved lineær regression - Videnskab

Indhold

Lineær regression er en statistisk metode til at undersøge forholdet mellem en afhængig variabel, betegnet som y, og en eller flere uafhængige variabler, betegnet som x. Den afhængige variabel skal være kontinuerlig, idet den kan påtage sig en hvilken som helst værdi eller i det mindste tæt på kontinuerlig. De uafhængige variabler kan være af enhver type. Selvom lineær regression ikke kan vise årsag i sig selv, påvirkes den afhængige variabel normalt af de uafhængige variabler.


Lineær regression er begrænset til lineære forhold

I sin natur ser lineær regression kun på lineære forhold mellem afhængige og uafhængige variabler. Det vil sige, det antager, at der er en lineær forbindelse mellem dem. Nogle gange er dette forkert. For eksempel er forholdet mellem indkomst og alder buet, dvs. indkomst har en tendens til at stige i de tidlige dele af voksenlivet, flade ud i senere voksen alder og falde efter, at folk går på pension. Du kan se, om dette er et problem ved at se på grafiske repræsentationer af forholdene.

Lineær regression Ser kun på gennemsnittet af den afhængige variabel

Lineær regression ser på et forhold mellem middelværdien af ​​den afhængige variabel og de uafhængige variabler. Hvis du f.eks. Ser på forholdet mellem spædbørns fødselsvægt og moderens egenskaber som alder, vil lineær regression se på gennemsnitsvægten af ​​babyer født til mødre i forskellige aldre. Nogle gange er du dog nødt til at se på ekstremiteterne i den afhængige variabel, f.eks. Er babyer i fare, når deres vægt er lav, så du vil gerne se på ekstremerne i dette eksempel.


Ligesom middelværdien ikke er en komplet beskrivelse af en enkelt variabel, er lineær regression ikke en komplet beskrivelse af sammenhængen mellem variabler. Du kan tackle dette problem ved hjælp af kvantiel regression.

Lineær regression er følsom over for outliers

Outliers er data, der er overraskende. Outliers kan være univariate (baseret på en variabel) eller multivariate. Hvis du ser på alder og indkomst, vil univariate outliers være ting som en person, der er 118 år gammel, eller en der tjente 12 millioner dollars sidste år. En multivariat outlier ville være en 18-årig der tjente $ 200.000. I dette tilfælde er hverken alder eller indkomst meget ekstrem, men meget få 18-årige tjener så mange penge.

Outliers kan have enorme effekter på regressionen. Du kan håndtere dette problem ved at anmode om indflydelsesstatistikker fra din statistiske software.


Data skal være uafhængige

Lineær regression antager, at dataene er uafhængige. Det betyder, at scoringerne for et emne (som en person) ikke har noget at gøre med det andet. Dette er ofte, men ikke altid, fornuftigt. To almindelige tilfælde, hvor det ikke giver mening, er klynger i rum og tid.

Et klassisk eksempel på klynger i rummet er studerendes testresultater, når du har studerende fra forskellige klasser, kvaliteter, skoler og skolekredse. Studerende i samme klasse har tendens til at være ens på mange måder, dvs. de kommer ofte fra de samme kvarterer, de har de samme lærere osv. Således er de ikke uafhængige.

Eksempler på gruppering i tid er alle undersøgelser, hvor du måler de samme emner flere gange. For eksempel i en undersøgelse af diæt og vægt kan du måle hver person flere gange. Disse data er ikke uafhængige, fordi det, som en person vejer ved en lejlighed, er relateret til det, han eller hun vejer ved andre lejligheder. En måde at håndtere dette på er med flere niveauer.