Indhold
Et scatter-plot er en graf, der viser forholdet mellem to datasæt. Nogle gange er det nyttigt at bruge dataene inde i et spredningsdiagram for at få et matematisk forhold mellem to variabler. Ligningen af et spredningsdiagram kan opnås manuelt ved hjælp af en af to hovedmåder: en grafisk teknik eller en teknik kaldet lineær regression.
Oprettelse af et spredningsdiagram
Brug grafpapir til at oprette et scatter-plot. Tegn x- og y-akserne, og sørg for, at de krydser og mærker oprindelsen. Sørg for, at x- og y-akserne også har korrekte titler. Derefter plot hvert datapunkt inden for grafen. Eventuelle tendenser mellem de afbildede datasæt skulle nu være tydelige.
Line of Best Fit
Når der er oprettet et scatter-plot, hvis vi antager, at der er en lineær sammenhæng mellem to datasæt, kan vi bruge en grafisk metode til at opnå ligningen. Tag en lineal, og tegn en linje så tæt som muligt på alle punkter. Forsøg at sikre, at der er lige så mange punkter over linjen, som der er under linjen. Når linjen er trukket, skal du bruge standardmetoder til at finde ligningen på den lige linje
Ligning af lige linje
Når en linje med den bedste pasform er placeret på en spredningsgraf, er det ligetil at finde ligningen. Den generelle ligning for en lige linje er:
y = mx + c
Hvor m er linjenes hældning (gradient) og c er y-skæringen. Find to punkter på linjen for at få gradienten. Lad os antage, at de to punkter er (1,3) og (0,1) for dette eksempel. Gradienten kan beregnes ved at tage forskellen i y-koordinaterne og dividere med forskellen i x-koordinaterne:
m = (3 - 1) / (1 - 0) = 2/1 = 2
Gradienten i dette tilfælde er lig med 2. Indtil videre er ligningen for den lige linje
y = 2x + c
Værdien for c kan opnås ved at erstatte værdierne med et kendt punkt. Efter eksemplet er et af de kendte punkter (1,3). Sæt dette i ligningen og omarrangere for c:
3 = (2 * 1) + c
c = 3 - 2 = 1
Den endelige ligning i dette tilfælde er:
y = 2x + 1
Lineær regression
Lineær regression er en matematisk metode, der kan bruges til at opnå den lige linje ligning af et scatter plot. Start med at placere dine data i en tabel. Lad dette eksempel antage, at vi har følgende data:
(4.1, 2.2) (6.5, 4.5) (12.6, 10.4)
Beregn summen af x-værdierne:
x_sum = 4,1 + 6,5 + 12,6 = 23,2
Beregn derefter summen af y-værdierne:
y_sum = 2,2 + 4,4 + 10,4 = 17
Summér nu produkterne fra hvert datapunktsæt:
xy_sum = (4,1 * 2,2) + (6,5 * 4,4) + (12,6 * 10,4) = 168,66
Derefter beregnes summen af de kvadratiske x-værdier og de kvadraterede y-værdier:
x_square_sum = (4,1 ^ 2) + (6,5 ^ 2) + (12,6 ^ 2) = 217,82
y_square_sum = (2,2 ^ 2) + (4,5 ^ 2) + (10,4 ^ 2) = 133,25
Til sidst tæller det antal datapunkter, du har. I dette tilfælde har vi tre datapunkter (N = 3). Gradienten for linjen med den bedste pasform kan fås fra:
m = (N * xy_sum) - (x_sum * y_sum) / (N * x_square_sum) - (x_sum * x_sum) = (3 * 168.66) - (23.2 * 17) / (3 * 217.82) - (23.2 * 23.2) = 0,968
Afskærmningen for den bedst egnede linje kan fås fra:
c = (x_square_sum * y_sum) - (x_sum * xy_sum) / (N * x_square_sum) - (x_sum * x_sum)
= (217.82 17) - (23.2 168.66) / (3 * 217.82) - (23.2 * 23.2) = -1.82
Den endelige ligning er derfor:
y = 0,968x - 1,82