Korrelationskoefficienten

Det er med Excel altid muligt at bestemme regressionskoefficienterne \(b_0,b_1,b_2,\ldots,b_p\), så spørgsmålet er mere, om det giver mening at forsøge at modellere en lineær sammenhæng mellem en afhængig variabel og en eller flere forklarende variable. Det kan korrelationskoefficienten hjælpe os med at afklare. I Excel betegnes korrelationskoefficienten med "Multiple R''. Men typisk bruger man blot betegnelsen R for korrelationskoefficienten.

Fortolkning af korrelationskoefficienten


Korrelation mellem to variable betyder, at hvis den ene variabel ændrer sig, så giver det en forudsigelig ændring i den anden variabel. Korrelationskoefficienten ligger altid mellem -1 og 1. En positiv korrelationskoefficient betyder, at når den uafhængige variable vokser, så vokser den afhængige variable også. En negativ korrelationskoefficient betyder, at hvis den uafhængige variabel vokser, så aftager den afhængige. Hvis den er -1 eller 1, er der en deterministisk korrelation mellem variablene, altså en ændring i den ene variabel vil helt sikkert medføre en ændring i den anden variabel. Hvis værdien derimod er 0, så er der absolut ingen lineær sammenhæng mellem de to variable. I gymnasiet kigger man i stedet ofte på den kvadrerede korrelationskoefficient \(R^2 \), kaldet forklaringsgraden. I tabellen kan du se fortolkninger af forskellige \( R^2 \)-værdier:

\(R^2 \) værdi Fortolkning
\(1{,}0\) Perfekt lineær sammenhæng
\(0{,}9\) Stærk lineær sammenhæng
\(0{,}5\) Moderat lineær sammenhæng
\(0{,}2\) Svag lineær sammenhæng
\(0{,}0\) Absolut ingen sammenhæng


Bemærk at en høj grad af korrelation på ingen måder kan bruges til at postulere en årsagssammenhæng (kausalitet) mellem variable. 

Hvis multipel lineær regression skal give mening, så skal der være en lineær sammenhæng mellem den afhængige variable og de forklarende variable. Hvis vi kigger på eksemplet fra tidligere, så ser vi, at der her er en korrelationskoefficient på ca. 0,9553 og at der dermed i dette tilfælde er en korrelation mellem variablerne pris, byggeomkostninger og rente.

Formel for korrelationskoefficienten for to uafhængige variable


Den generelle formel for korrelationskoefficienten er kompliceret og involverer matrixberegninger. I tilfældet hvor vi kun har to uafhængige variable er det lidt nemmere at skrive formlen ned.
\(\label{eq:correlation}
R = \frac{\sqrt{r^2_{yx_1} + r^2_{yx_2} - 2r_{yx_1} r_{yx_2} r_{{x_1}x_2}}}{\sqrt{1 - r^2_{{x_1}x_2}}}
\)

hvor fx

\(
r_{yx_1} = (\frac{1}{n-1}) \sum \frac{(y-\bar{y})(x_1 - \bar{x}_1)}{s_{y} \cdot s_{x_1}}
\)

og
\(
\bar{y} = \frac{ \sum y_{i}}{n}, \quad \bar{x}_1 = \frac{\sum x_{1}}{n}, \quad s_{y} = \sqrt{\frac{\sum{(y_{i} - \bar{y})^2}}{n-1}}, \quad s_{x_1} = \sqrt{\frac{\sum{(x_{1} - \bar{x}_1)^2}}{n-1}}
\)
Størrelsen \(r_{{y}{x_1}}\) er dybest set korrelationskoefficienten mellem variablerne \(y\) og \(x_1\). Når formlen er mere kompleks skyldes det, at vi også er nødt til at betragte korrelationen mellem \(y\) og \(x_2\) og mellem \(x_1\) og \(x_2\).

Pointen med at opskrive formlen er ikke, at du skal kunne regne korrelationskoefficienten i hånden. Pointen er derimod at kunne sammenligne med simpel regressionsanalyse. Hvis vi nu kun har en enkelt forklarende variable \(x_1\) og \(x_2=0\), så forsvinder de fleste led i formlen. Tilbage bliver kun de led, hvor \(x_2\) ikke indgår, 
\(
R = \frac{\sqrt{r^2_{yx_1}}}{\sqrt{1}} = r_{yx_1}
\)
hvilket præcis er korrelationskoefficienten for simpel lineær regression mellem den afhængige variabel \(y\) og den forklarende variabel \(x_1\).

Har du et spørgsmål, du vil stille om Korrelationskoefficienten? Skriv det i Webmatematiks forum!
Har du en kommentar til indholdet på denne side? Send os en mail!