Fejlkilder / Bias
Når man laver en statistisk undersøgelse, skal man holde tungen lige i munden. Man kan nemlig let komme til at lave nogle systematiske fejl. Vi vil gennemgå en række af dem her, så man ved, hvad man skal være på vagt for.
Repræsentativ stikprøve
Når man laver en statistisk undersøgelse, kan man ikke rende rundt og undersøge hele populationen. Man udtager derfor en stikprøve. Det er vigtigt, at denne stikprøve er repræsentativ for populationen. Der må altså ikke være overrepræsentation af en bestemt gruppering indenfor populationen. Over-/underrepræsentationer skævvrider undersøgelsen.
Vil man f.eks. undersøge danskernes holdning til offentlig transport, så nytter det ikke noget, hvis man kun spørger københavnerne.
Hvis man vil lave en undersøgelse om et lokalsamfunds holdninger, og man vælger at spørge forbipasserende ved et lokalt supermarked, kan man let få en ikke-repræsentativ stikprøve.
Er der nogle grupper, der kommer mere i supermarkedet end andre? (om formiddagen er der f.eks. forholdsvist mange ældre i forhold til voksne grundet arbejdstid)
Hvilket område ligger supermarkedet i? Er det nogle særlige typer, der handler lige netop i denne kæde? Ligger der et andet supermarked i den anden ende af byen, hvor halvdelen af byens indbyggere handler? Alle disse spørgsmål giver anledning til over-/underrepræsentation af bestemte grupper i populationen.
Et eksempel fra den virkelige verden er præsidentvalget i USA 1936 mellem Landon og Roosevelt. Et anerkendt tidsskrift The Literary Digest havde samlet en stikprøve på 2,4 mio. og spåede, at Landon ville vinde og få omkring 55% af stemmerne.
Den daværende journalist og marketingsekspert George Gallup lavede en mindre undersøgelse med kun ca. 30.000 respondenter. Imidlertid viste den, at Roosevelt ville vinde en klar sejr med over 60% af stemmerne.
Gallup viste sig at få ret. Selvom hans stikprøve var lille, så havde han nøje udvalgt den, så alle dele af den amerikanske befolkning var repræsenteret.
The Digest's fejl var, at de foretog deres stikprøve ud fra telefonbøger og bilregistreringsnumre. Dengang var telefoner og biler ikke så udbredte som i dag, så The Digest fik hovedsageligt fat i de rige amerikanere, mens den fattige del af befolkningen var underrepræsenteret. Dermed blev undersøgelsen skævvredet.
Formulering af spørgsmål
Mange statistiske undersøgelser foregår vha. spørgeskemaer. Her skal man passe på med, hvordan man formulerer sine spørgsmål. Et spørgsmål kan f.eks. være formuleret på en sådan måde, at svaret er givet på forhånd. F.eks. "Synes du, vi skal have bedre sygehuse?". Ingen (eller i hvert fald de færreste) ville svare nej til sådan et spørgsmål. Derfor er det ikke interessant at stille. Et mere relevant spørgsmål kunne være "Ville du acceptere en højere skat for at få bedre sygehuse?". Her går man ind og ser på bedre sygehuse i forhold til noget andet, hvor man skal prioritere.
Spørgsmål kan også være upræcist formulerede. F.eks. "Spiser du sundt?" Det er ikke klart defineret, hvad det vil sige at spise sundt. Derfor vil svarene afhænge af, hvad respondenterne selv lægger i begreberne, hvilket gør det umuligt at sammenligne det indsamlede data med hinanden. I stedet kunne man prøve at sætte nogle kvantitative mål op for hvad det ville sige at spise sundt. F.eks. "Hvor mange grøntsager spiser du om dagen?", "Hvor ofte drikker du sodavand?" etc.
Skjulte variable
Når man har foretaget en statistisk undersøgelse skal man passe på med at drage forhastede konklusioner. Nogle gange kan der nemlig være skjulte variable, der spiller ind på ens data.
Man kan statistisk vise, at der er en sammenhæng mellem hvor mange stjerneskud der er observeret, og hvor mange, der bliver forkølede.
Heraf kan man ikke slutte, at stjerneskud gør folk forkølede. Årstiden er en skjult variabel. Om vinteren kan man se flere stjerneskud end resten af året, og om vinteren er der flere der bliver forkølede end resten af året. Den eneste virkelige sammenhæng mellem vores to variable er altså, at de begge bliver påvirket af den samme skjulte variabel.