Kort ordlista om statistiska undersökningar
Vad betyder vägning, om det inte har med kilo att göra? Är en kvalitativ undersökning bättre genomförd än en kvantitativ? Precis som i alla vetenskaper och branscher finns det särskilda ord som används kopplat till statistik och undersökningar. De kan vara svåra att förstå för den som inte fått dem förklarade för sig. Därför återpublicerar vi här en ordlista från Surveyföreningen, en sektion inom Svenska statistikfrämjandet.
Bas
Definition: Den mängd svar/intervjuer som undersökningens resultat bygger på.
Förklaring: En synonym term är svarsmängd, dvs de som har svarat.
Engelsk term: Base
Bias
Definition: Snedvridning; tillstånd som avviker från vad som väntas. Systematiskt fel.
Förklaring: Om det skattningsförfarande som används ger resultat (i långa loppet) som systematiskt avviker från det sanna värdet säger man att skattningsförfarandet är biased (skev).
Man bör dock inte använda ett språkbruk som exempelvis att säga att en ”undersökning är biased”. Om de svarande i en undersökning exempelvis inte har samma köns- och åldersfördelning som i populationen kan man prata om att de svarande är snedvridna avseende kön och ålder. Man bör inte säga att de svarande har en bias avseende kön och ålder.
Exempel: Anta att det sanna värdet för en populations genomsnittliga månadslön är 30 000 kr. Vi drar ett sannolikhetsurval för att skatta genomsnittlig månadslön och skattningsförfarandet ger (i långa loppet) ett medelvärde på 27 000. Då är skattningsförfarandet biased. Vanligtvis är det bortfall som kan orsaka att skattningsförfarandet blir biased.
Engelsk term: Bias.
Bortfall
Definition: De individer man har planerat att undersöka, men som man ej fick något svar från.
Förklaring: Bortfall kan uppstå av olika anledningar. Vanligtvis brukar man dela in bortfallet ej anträffade, vägrare samt övrigt bortfall. Ibland används finare indelningar i fler grupper.
Engelsk term: Nonresponse
Felmarginal
Definition: Det tal som läggs till respektive dras från ett punktestimat när man bildar ett konfidensintervall.
Exempel: I ett riksdagsval får X-partiet 8 procent av rösterna. En tid senare vill man veta om det skett en förändring i partisympatierna. Man gör därför en urvalsundersökning och ett procenttal beräknas för X-partiet. Kring detta procenttal beräknas en s.k. felmarginal; andra ord är osäkerhetsmarginal eller osäkerhetstal. Antag att urvalet ger punktestimatet 7 procent (dvs. skattningen av andel som skulle rösta på X-partiet) och felmarginalen 1,6 procentenheter. Konfidensintervallet blir då från 5,4 till 8,6 procent.
Engelsk term: Margin of error
Icke-sannolikhetsurval
Definition: Ett urval där man vid urvalsdragningen inte följt i statistisk teori accepterade regler för slumpmässighet. Ett annat uttryck är icke-slumpmässigt urval. Se vidare sannolikhetsurval.
Förklaring: Vid icke-sannolikhetsurval väljs individerna inte enligt statistiska principer utan enligt mer godtyckliga principer.
I regel vill man dra ett sannolikhetsurval men ibland går inte det. En förklaring till att det inte går kan vara att det saknas register eller listor med kontaktuppgifter för individerna i den population man vill undersöka.
Eftersom urvalet inte är slumpmässigt är det svårt att dra vetenskapliga slutsatser utifrån datamaterialet utan att analysera selektionsprocessen.
Om bortfallet är snedvridet är det inte säkert att en undersökning som börjar som sannolikhetsurval faktiskt kan betraktas som det när undersökningen väl är genomförd.
Denna typ av urval tenderar att bli allt vanligare på grund av ökande bortfall och höga kostnader för sannolikhetsurval. Forskning kring icke-sannolikhetsurval pågår i många forskargrupper globalt.
Exempel: Olika exempel på icke-sannolikhetsurval är kvoturval, snöbollsurval, bekvämlighetsurval.
Engelsk term: Non-probability sample
Konfidensintervall
Definition: Ett konfidensintervall är slumpmässigt intervall med en given sannolikhet att det innehåller det sanna okända värdet av den statistiska parameter man är intresserad av.
Förklaring: Felmarginalen är det tal som läggs till respektive dras ifrån ett punktestimat. Den övre och den nedre gränsen i detta intervall bildar ett konfidensintervall.
Exempel: Man vill veta något om svenska 10-åringars TV-vanor. Ur populationen alla 10-åringar i Sverige dras ett slumpmässigt urval barn; dessa intervjuas om sitt TV-tittande. Bl.a. får de frågan hur länge de en normal dag tittar på TV. Medelvärdet för urvalet (x) visar sig vara lika med 2,6 timmar. Kring detta medelvärde beräknas felmarginalen till 0,2. Det i sin tur ger 2,6 ± 0,2 som bildar ett intervall. Intervallet sträcker sig från 2,4 till 2,8 timmar. Talen 2,4 och 2,8 är intervallets ändpunkter; 2,4 är den undre intervallgränsen och 2,8 den övre. Ett annat ord för intervallgräns är konfidensgräns.
Engelsk term: Confidence interval
Kvalitativ undersökning
Definition: Kvalitativ analys innebär en företeelse-, egenskaps- och innebördssökande analys som har som mål att identifiera a) variationen, b) strukturen och/eller c) processen i den identifierade företeelsen, egenskapen eller innebörden.
Förklaring: Den kvalitativa analysen förklaras enklast genom att ställa den i kontrast till den kvantitativa. Den kvalitativa analysens syfte är att identifiera och bestämma icke kända eller otillfredsställande kända företeelser, egenskaper eller innebörder medan man i den kvantitativa analysen undersöker hur på förhand definierade företeelse och dess egenskaper och innebörder fördelar sig i en population, händelser eller situationer. I den kvalitativa analysen ställer man sig frågor som ”vad innebär det?” eller ”vad handlar det om?” och analysprincipen är abduktiv tillskillnad från den kvantitativa analysen som är deduktiv. I den kvalitativa analysen går man oftast från helhet till del medan man, tvärtom, i den kvantitativa analysen går från del till helhet.
Man kan även förklara den kvalitativa analysen som mer subjektiv och mjuk där den är mer av en konstform än en objektiv vetenskap. Den kvalitativa analysen härstammar från den hermeneutiska skolan (att tolka) och kan jämföras med den kvantitativa analysen som utgår ifrån positivism (kunskap baserad på fakta och sinneserfarenhet).
Kortfattat och något grovt kan man även säga att den kvalitativa analysen använder sig av ord som sitt huvudverktyg medan den kvantitativa analysen använder sig av siffror.
Exempel: Innan man genomför en urvalsundersökning där man känner till väldigt lite om den population man är intresserad av kan man välja ut några få personer och göra mer omfattande intervjuer av kognitiv karaktär. Dessa intervjuer leder till en bredare bild av ev. problem och ger en djupare förståelse för ev. orsaker som kan orsaka mätfel i den kommande urvalsundersökningen.
Engelsk term: Qualitative survey
Kvantitativ undersökning
Definition: Kvantitativ analys är en företeelse-, egenskaps- och innebördsstyrd analys som har som mål att undersöka hur på förhand definierade företeelser, egenskaper och innebörder fördelar sig mellan olika grupper i en population. Ett annat mål är att undersöka om det föreligger något samband mellan två eller flera företeelser, egenskaper eller innebörder och om dessa eventuellt kan leda till slutsatser om kausala relationer.
Förklaring: Den kvantitativa analysen förklaras enklast genom att ställa den i kontrast till den kvalitativa. Den kvalitativa analysens syfte är att identifiera och bestämma icke kända eller otillfredsställande kända företeelser, egenskaper eller innebörder medan man i den kvantitativa analysen undersöker hur på förhand definierade företeelse och dess egenskaper och innebörder fördelar sig i en population, händelser eller situationer. I den kvalitativa analysen ställer man sig frågor som ”vad innebär det?” eller ”vad handlar det om?” och analysprincipen är abduktiv tillskillnad från den kvantitativa analysen som är deduktiv. I den kvalitativa analysen går man oftast från helhet till del medan man, tvärtom, i den kvantitativa analysen går från del till helhet.
Man kan även förklara den kvalitativa analysen som mer subjektiv och mjuk där den är mer av en konstform än en objektiv vetenskap. Den kvalitativa analysen härstammar från den hermeneutiska skolan (att tolka) och kan jämföras med den kvantitativa analysen som utgår ifrån positivism (kunskap baserad på fakta och sinneserfarenhet).
Kortfattat och något grovt kan man även säga att den kvalitativa analysen använder sig av ord som sitt huvudverktyg medan den kvantitativa analysen använder sig av siffror.Exempel: Det flesta urvalsundersökningar är exempel på kvantitativa undersökningar.
Engelsk term: Quantitative survey
Medelfel
Definition: Kvadratroten för variansen för ett skattningsförfarande kallas för medelfelet för skattningsförfarandet.
Förklaring: Ett annat ord för medelfel är standardfel, en direktöversättning av engelskans standard error, ofta förkortat SE. Vardagligt, och förenklat, kan begreppet medelfel tolkas så att det är den avvikelse man i genomsnitt ska räkna med när man med hjälp av en urvalsegenskap uttalar sig om motsvarande populationsegenskap.
Medelfelet beror i huvudsak på variabiliteten i data och på urvalsstorleken. Multipliceras medelfelet med faktorn 1,96 erhålls felmarginalen (med 95 procents konfidens).
Engelsk term: Standard error
Medelvärde
Definition: Medelvärdet är ett centralmått som används för att beräkna ett genomsnittligt värde för ett urval eller en population.
Förklaring: Det aritmetiska medelvärdet beräknas som summan av observationsvärdena dividerat med antalet observationer. Medelvärde är ett exempel på centralmått, till skillnad från spridningsmått som exempelvis standardavvikelsen.
Exempel: Medellängd (medelvärdet) för män i Sverige är ca 181 cm och för kvinnor ca 168 cm.
Engelsk term: Mean (arithmetic, geometric and harmonic mean)
Median
Definition: Av ett latinskt ord som betyder i mitten befintlig, mellerst. Det mittersta värdet då de observerade mätvärdena ordnats i stigande ordning efter mätvärdets storlek (mittenvärdet).
Förklaring: Median är ett exempel på centralmått, till skillnad från spridningsmått.
Exempel: Om vi har en grupp individer där alla har en inkomst så kommer medianen bli den mittersta individens lön efter att vi sorterat lönen efter storleksordning.
Engelsk term: Median
Normalfördelning
Definition: Normalfördelning är en statistisk sannolikhetsmodell som används för att beskriva variation i mätvärden.
Förklaring: Normalfördelningen är den viktigaste teoretiska sannolikhetsfördelningen i statistik. Vid mätning av fenomen i naturen och i samhället visar det sig ofta att observationsvärdena tenderar att följa ett visst mönster - en normalfördelning. Det kan röra sig om till exempel längden på vuxna människor, vikten på nyfödda barn, mängden nederbörd som fallit under ett dygn.
Engelsk term: Normal distribution
Obundet slumpmässigt urval (OSU)
Definition: Ett urvalsförfarande som innebär att alla kombinationer av n objekt (urvalsstorleken) från en population som består av objekt har lika stor sannolikhet att bli utvalda.
Förklaring: Definitionen av OSU får som konsekvens att varje objekt har samma sannolikhet att bli utvald och denna inklusionssannolikhet är lika med n/N. Notera att det finns flera olika urvalsmetoder som ger att varje objekt har samma sannolikhet att bli utvald.
Exempel: Om OSU används för att dra ett urval på 1 000 personer bland t.ex. Sveriges befolkning över 18 år kommer samtliga individer att ha samma sannolikhet att komma med i urvalet. Urvalet kommer då ofta att vara en miniatyrkopia av Sverige avseende fördelningen över kön, ålder, födelseland, utbildningsnivå, längd, BMI, partisympati, hårfärg, inställning i fråga X, utgifter på restaurangbesök osv. osv.
Engelsk term: Simple random sample.
P-hacking
Definition: Missbruk av den statistiska verktygslådan för att åstadkomma signifikanta resultat.
Förklaring: Det händer att de som tar fram statistiken gärna vill lyckas påvisa statistiskt signifikanta resultat (exempelvis för att driva opinioner) och att man gör det på bekostnad av den vetenskapliga processen. Kan göras både medvetet och omedvetet. Även känt som data dredging, data fishing eller data butchery.
Exempel: Görs exempelvis genom att sätta beslutsregler för signifikanstester post facto eller genom att frångå att visa p-värden och bara rapportera resultaten i text när testvärde inte är lika signifikanta som man hade hoppats på.
Engelsk term: P-hacking.
Population
Definition: Populationen är hela den mängd av objekt som en undersökare valt att undersöka.
Förklaring: Oftast får man nöja sig med de objekt som det finns i en förteckning eller ett register. Registret kan mer eller mindre stämma överens med den population man valt att undersöka. Ett fackord för förteckningen (registret) är ram eller urvalsram. Populationen kan vara stor (t.ex. ett lands befolkning) eller liten (t.ex. populationen av biskopar i Sverige).
Exempel: Ett viktigt arbete vid undersökningar är att avgränsa populationen på något lämpligt sätt. Man är intresserad av kvinnor i åldrarna 20-39 bosatta i Halland. En tänkbar ram för en sådan population är folkbokföringsregistret. Ibland görs avgränsningar av populationen så att definitionen av populationen passar en tillgänglig ram.
Engelsk term: Population.
Representativ
Definition: Termen representativ eller representativitet är ett något oklart begrepp, som kan ha olika betydelser. Den som säger att ett stickprov (urval) är representativt menar i regel att stickprovet i någon icke specificerad mening ”liknar” eller ”kan utgöra bas för slutsatser rörande” den population som man är intresserad av. Att ett stickprov är representativt för en viss population skulle exempelvis kunna betyda något av följande:
- Stickprovets fördelning med avseende på olika bakgrundsvariabler är densamma som motsvarande fördelning i hela populationen (kön, ålder, utbildning, stad/land etcetera.)
- Alla intressanta grupper i populationen finns representerade i stickprovet.
- Varje enskild medlem i stickprovet är en typisk representant för populationen.
- Urvalet har gjorts så att alla i populationen har haft lika chans att komma med.
- Urvalet har gjorts så att det går att med lämpligt vägningsförfarande erhålla bra skattningar av de sökta populationsparametrarna.
Förklaring: Eftersom ”representativ” är ett mångtydigt begrepp, gör ISO 26362 följande uttalande (avsnitt 4.4.1; i svensk översättning): Begrepp som ”representativ” får användas endast om det tydligt definieras.
Engelsk term: Representative.
Respondent
Definition: Personen som ska besvara en enkät/intervju eller som skall observeras kallas för respondent.
Förklaring: Respondenten behöver inte vara en fysisk person, det kan vara en myndighet eller ett företag. Ofta används termen uppgiftslämnare som synonym till respondent.
Engelsk term: Respondent.
Samplingfördelning
Definition: Fördelning för en urvalsegenskap som antas beräknad för alla möjliga urval av viss storlek ur en population.
Förklaring: Urvalsegenskapen kan t.ex. vara medelvärde, total, varians eller korrelationskoefficient. Om det mått som används är medelvärde är samplingfördelningen för medelvärdet den teoretiska fördelning som Surveyföreningen medlemsförening till Statistikfrämjandet Senast uppdaterad 2020-01-22 skulle uppstå om samtliga tänkbara urval av en viss storlek (och med en viss urvalsmetod) drogs ur populationen. För vart och ett av dessa teoretiska urval behöver man kunna beräkna medelvärdet baserat på de utvalda individerna. Notera att samplingfördelningen är en teoretisk fördelning. Det är med hjälp av samplingfördelningen som t.ex. konfidensintervall kan beräknas. Se figur på första sidan, den understa figuren är samplingfördelningen.
Engelsk term: Sampling distribution.
Sannolikhetsurval
Definition: Sannolikhetsurval innebär (1) att det finns en entydigt definierad population från vilken urval ska göras med hjälp av en viss urvalsram, och (2) att urval görs från denna urvalsram med användande av någon av oss själva kontrollerad slumpmekanism (så kallad ”randomisering”), så att varje individ i urvalsramen får en känd sannolikhet, större än noll, att bli utvald.
Förklaring: Ett annat uttryck är slumpmässigt urval. Metodiken för sannolikhetsurval är mycket flexibel och kan anpassas till många praktiska situationer. Hit hör tillämpning av flerstegsurval, klusterurval, stratifierat urval, systematiskt urval och användande av hjälpinformation.
Exempel: Sverige har drygt sju miljoner röstberättigade; de utgör populationen röstberättigade. För en opinionsmätning slumpas, säg, 1 000 av de röstberättigade ut för intervjuer. De utvalda utgör ett slumpmässigt urval.
Engelsk term: Probability sample.
Statistisk signifikans
Definition: Signifikans är inom statistiken ett begrepp för att ange att ett observerat värde i en undersökning avviker från ett hypotetiskt värde eller annat jämförelsevärde så pass mycket att det sannolikt inte beror på den statistiska osäkerheten (slumpen).
Förklaring: Två andra uttryck för sådan prövning är signifikansprövning och signifikanstest. Ordet signifikans med adjektivet signifikant kommer av ett latinskt ord som betyder beteckna, betyda. Adjektivet kan vardagligt översättas med betydelsefull. Statistiskt signifikant och statistiskt säkerställd (skillnad) kan användas synonymt. Notera att man inte bör använda ett språkbruk och säga att en undersökning är statistiskt signifikant eller statistiskt säkerställd. Termerna bör användas i samband med undersökningens resultat och de variabler som man undersökt.
Exempel: I ett riksdagsval får X-partiet 8 procent av rösterna. En tid senare vill man veta om det skett en förändring i partisympatierna. Man gör därför en urvalsundersökning och ett procenttal beräknas för Xpartiet. Kring detta procenttal beräknas en s.k. felmarginal; andra ord är slumpmarginal och osäkerhetstal. Antag att urvalet ger punktestimatet 7 procent och felmarginalen 1,6 procentenheter. Konfidensintervallet blir då från 5,4 till 8,6 procent. Det här innebär att det inte finns någon statistiskt säkerställd skillnad eftersom intervallet innehåller resultatet 8 % från riksdagsvalet.
Engelsk term: Statistical significance.
Svarsfrekvens
Definition: Antalet som svarar i relation till antalet utvalda i en undersökning.
Förklaring: En synonym term är svarsandel - vilket egentligen är en bättre term eftersom måttet ofta anges som ett procenttal och termen frekvens i svarsfrekvens associeras till ett tal eller heltal. I skriften Standard för bortfallsberäkning, av Surveyföreningen, ges förslag och rekommendationer kring hur svarsandel bör beräknas. Situationen som förespeglas är vid sannolikhetsurval. Bortfallsandel är 1 minus svarsandel. För beräkning av deltagarandel, som är ett motsvarande mått vid webbpanelundersökningar, hänvisas till Surveyföreningen.
Exempel: I en undersökning där 1 000 personer slumpmässigt valts ut och 600 personer svarar så är svarsandelen 60 %. Detta innebär att bortfallsandelen är 40 %.
Engelsk term: Response rate.
Urval
Definition: I statistik, den del av objekten i en population som valts ut för en undersökning.
Förklaring: På fackspråk talar man om ett urval som en delmängd av populationen. Två andra ord är stickprov och sampel. Se figur på första sidan. Vid opinionsundersökningar drar man ett urval för att kunna generalisera till populationen. Urvalet kan vara draget som ett sannolikhetsurval eller som ett icke sannolikhetsurval. I vissa sammanhang förekommer termerna inbjudet urval (invited sample) och deltagande urval (participating sample). Detta är ett språkbruk som Surveyföreningen avråder från. Termen inbjudet urval är en synonym till urval, eftersom urvalet avser samtliga utvalda, dock behövs inte förstärkningsordet ”inbjudet”. Termen deltagande urval är närmast att betraktas som svarandemängden, dvs. de som svarar på undersökningen.
Engelsk term: Sample.
Vägning
Definition: Om urvalet är draget som ett sannolikhetsurval har alla utvalda individer en given urvalssannolikhet (inklusionssannolikhet). 1 dividerat med urvalssannolikheten ger en vikt (designvikt) som används för att ”räkna upp” eller ”väga” urvalet till populationen.
Förklaring: Termen uppräkningsvikt eller basvikt används ofta synonymt med designvikt. Termen designvikt är tänkt att associeras med att vikten beror på vilken urvalsdesign som använts. Om bortfall inträffar kan man justera designvikten för att kompensera för eventuella snedvridningar som bortfallet kan ha orsakat. Detta kräver tillgång till (stark) hjälpinformation, ofta i form av variabler som kön, ålder, utbildning, inkomst m.fl. Om de svarande uppvisar skev fördelning över sådana hjälpvariabler i förhållande till populationens fördelning kan designvikten justeras för att kompensera för denna snedvridning. Efter en sådan justering uppvisar de svarande, vid vägd sammanställning, samma fördelning över hjälpvariablerna som i populationen. Syftet med detta är reducera eventuell bias i skattningsförfarandet. Poststratifiering eller kalibrering är vanliga metoder för att åstadkomma detta tekniskt. Inom opinionsmätningar talar man ibland om vägning av resultat. Syftet är även här att reducera bias i skattningarna, t.ex. på grund av bortfall. Inom opinionsundersökningar används ibland hjälpvariabeln ”hur man röstade i föregående val” för att justera uppräkningsvikten. Om urvalet inte är draget som ett sannolikhetsurval vet man inte urvalssannolikheten för individerna. Det existerar då ingen designvikt och inte heller någon (designbaserad) statistisk teoretisk grund att stå på för att göra uppräkningar till populationen.
Exempel: Om vi har ett urval med 1000 personer där 500 är män och 500 är kvinnor. Anta att 250 män svarade och 450 kvinnor svarade. Då är kvinnorna relativit sett överrepresenterande. Vid ett vägningsförfarande kan man ”väga upp” männens svar och ”väga ner” kvinnornas svar.
Engelsk term: Weighting
General Sidebar
Vill du ha ett förtydligande kring ett begrepp eller en term, eller vill få ytterligare termer förklarade, är du välkommen att kontakta Surveyföreningen.