Indhold
Når forskere, økonomer eller statistikere foretager forudsigelser baseret på teori og derefter samler reelle data, har de brug for en måde at måle variationen mellem forudsagte og målte værdier. De stoler normalt på den gennemsnitlige kvadratfejl (MSE), som er summen af variationerne i de individuelle datapunkter, der er kvadratisk og divideret med antallet af datapunkter minus 2. Når dataene vises på en graf, bestemmer du MSE ved opsummering af variationerne i datapunkterne for lodret akse. På en x-y-graf ville det være y-værdierne.
Hvorfor firkanter variationerne?
Multiplikation af variationen mellem forudsagte og observerede værdier har to ønskelige effekter. Den første er at sikre, at alle værdier er positive. Hvis en eller flere værdier var negative, kunne summen af alle værdier være urealistisk lille og en dårlig gengivelse af den faktiske variation mellem forudsagte og observerede værdier. Den anden fordel ved kvadrering er at give større vægt på større forskelle, hvilket sikrer, at en stor værdi for MSE betyder store datavariationer.
Prøveberegning lageralgoritme
Antag, at du har en algoritme, der forudser priserne på en bestemt bestand på daglig basis. Mandag forudsiger det, at aktiekursen er $ 5,50, på tirsdag til $ 6,00, onsdag $ 6,00, torsdag $ 7,50 og fredag $ 8,00. I betragtning af mandag som dag 1 har du et sæt datapunkter, der vises som dette: (1, 5,50), (2, 6,00), (3, 6.00), (4, 7.50) og (5, 8.00). De faktiske priser er som følger: Mandag $ 4,75 (1, 4,75); Tirsdag 5,35 $ (2, 5,35); Onsdag $ 6,25 (3, 6,25); Torsdag $ 7,25 (4, 7,25); og fredag: $ 8,50 (5, 8,50).
Variationerne mellem y-værdierne for disse punkter er henholdsvis 0,75, 0,65, -0,25, 0,25 og -0,50, hvor det negative tegn angiver en forudsagt værdi, der er mindre end den observerede. For at beregne MSE kvadreres du først hver variationværdi, hvilket eliminerer minustegnene og giver 0,5625, 0,4225, 0,0625, 0,0625 og 0,25. Summering af disse værdier giver 1,36 og divideret med antallet af målinger minus 2, som er 3, giver MSE, som viser sig at være 0,45.
MSE og RMSE
Mindre værdier for MSE indikerer tættere aftale mellem forudsagte og observerede resultater, og en MSE på 0,0 indikerer perfekt enighed. Det er dog vigtigt at huske, at variationerne er firkantede. Når der kræves en fejlmåling, der er i de samme enheder som datapunkterne, tager statistikere root mean square error (RMSE). De opnår dette ved at tage kvadratroten af den gennemsnitlige firkantfejl. For eksemplet ovenfor ville RSME være 0,671 eller ca. 67 cent.