Propensity score – Bakgrund och teori (del 1)

Introduktion till propensity score: bakgrund och teori

Propensity score är en statistisk metod som används för att minska bias och effekt av eventuella förväxlingsfaktorer (confounders). Uttryckt på ett något förenklat sätt kan man säga att propensity score används för att få observationsstudier att efterlikna randomiserade studier. Rent formellt är propensity score är ett beräknat värde som anger sannolikheten för en person att ha fått behandling. Detta kan i sin tur användas för att skapa balans mellan behandlade och obehandlade grupper. Analyser med propensity score är förhållandevis enkla att genomföra och deras användning har ökat markant senaste åren. Första delen av denna text beskriver bakrund och teori för denna metod.

I del 2 kan du kan läsa mer om det praktiska genomförande av propensity score samt se exempel i R.

Innan vi diskuterar propensity score så gör vi en snabb repetition av den randomiserade studien. Med en randomiserad klinisk prövning kan vi utvärdera effekten av ett läkemedel eller annan intervention. Detta görs genom att varje studiedeltagare tilldelas antingen läkemedel (interventionen) eller placebo. Slumpen är det enda som får avgöra om deltagaren får läkemedel eller placebo. Den slumpmässiga (randomiserade) tilldelningen av exponering (läkemedel eller annan intervention) är en av de mest briljanta och kraftfulla verktygen som forskare har att tillgå. Om varje individ har lika stor chans att få placebo eller läkemedel, så kommer alla karaktäristika i populationen (ålder, kön, rökvanor, fetma, cancersjukdom, depression, genetiska varianter, socioekonomisk status, etnicitet osv) fördelas lika mellan de som får placebo samt de som får läkemedel (Figur 1). Om randomiseringen lyckas så är det endast exponeringen (läkemedel vs placebo) som skiljer grupperna och eventuella skillnader i utfallsmåttet kan då tillskrivas läkemedlet. På så vis kan kausala samband mellan en intervention och ett utfallsmått fastställas.

Figur 1. Principen för den randomiserade studien. Varje figur representerar en individ i en population och olika färger och former avspeglar variationer i populationens karaktäristika. Randomiseringen innebär att alla karaktäristika (kön, ålder, genetik, matvanor, etnicitet, sociala faktorer etc) fördelas jämnt mellan grupperna (förutsatt att sannolikheten, för varje individ, är lika stor att hamna i respektive behandlingsgrupp). Detta gör att den enda faktorn som skiljer grupperna blir själva behandlingen. Därmed kan eventuella skillnader i utfallsmåttet tillskrivas behandlingen (på ett kausalt vis).
Figur 1. Principen för den randomiserade studien. Varje figur representerar en individ i en population och olika färger och former avspeglar variationer i populationens karaktäristika. Randomiseringen innebär att alla karaktäristika (kön, ålder, genetik, matvanor, etnicitet, sociala faktorer etc) fördelas jämnt mellan grupperna (förutsatt att sannolikheten, för varje individ, är lika stor att hamna i respektive behandlingsgrupp). Detta gör att den enda faktorn som skiljer grupperna blir själva behandlingen. Därmed kan eventuella skillnader i utfallsmåttet tillskrivas behandlingen (på ett kausalt vis).

 

En randomiserad klinisk prövning kräver omfattande resurser och inte sällan lång uppföljning. Inom läkemedelsindustrin kan en klinisk prövning engagera tusentals personer och kosta hundratals miljoner kronor. Den kliniska prövningen har förvisso hög intern validitet (om läkemedlet ges till en annan population med samma karaktäristika så kommer man med största sannolikhet observera samma effekt av läkemedlet) men låg extern validitet (om läkemedlet ges till en population med annorlunda karaktäristika är det inte säkert att samma effekt kommer observeras). Ett annat sätt att uttrycka detta på är att en behandling, i det verkliga livet, ges sällan slumpmässigt. Tvärtom omfattas den kliniska vardagen oftast av väl avvägda beslut utifrån detaljerad information om patientkaraktäristika. Man menar således att en randomiserad studie ibland utgör en synnerligen konstlad situation som inte nödvändigtvis motsvarar den kliniska verkligheten.

 

Nackdelar med randomiserade studier:

Mycket resurskrävande (Dyrt!)

Kräver ibland lång uppföljningstid

Inte alltid etiskt eller praktiskt genomförbart

Kan ha låg extern validitet

 

En observationsstudie kan sägas vara motsatsen till en randomiserad studie. Observationsstudier är mindre resurskrävande (oftast) och erbjuder mer flexibilitet. Forskare använder observationsstudier för att belysa samband mellan olika exponeringar och utfallsmått. Dessvärre kan kausala samband inte fastställas med en observationsstudie med lika stor tillförlitlighet, och detta beror på att man inte kan kontrollera tilldelning av exponering (vilket vi kan i en randomiserad studie). Däremot menar man ibland att observationsstudier i vissa avseende återspeglar den kliniska verkligheten i större utsträckning. Gällande observationsstudier som baserats på stora sjukvårdsregister talar man om så kallad ”real world data”.

En annan viktig aspekt, vid jämförelse av randomiserade studier och observationsstudier är att en stor utveckling har skett gällande statistiska analysmetoder. Detta innebär att man numera har möjlighet att justera/kontrollera för diverse patientkaraktäristika (så som kön, ålder, genetik, matvanor, etnicitet, sociala faktorer etc.) på ett sätt som efterliknar den slumpmässiga föredelning som sker i samband med randomisering. Exempel på en sådan statistisk metod är propensity score.

Syftet med propensity score

I samband med observationsstudier har man som forskare ingen möjlighet att påverka vilka som fått behandling (interventionsgrupp) och vilka som ej fått behandling (kontrollgrupp). Det kan finnas stora skillnader mellan behandlade och icke-behandlade gällande flera variabler (patientkaraktäristika). Skillnader i patientkaraktäristika, så som kön, ålder, genetik, rökvanor, matvanor, etnicitet och sociala faktorer, kan vara fördelat ojämnt mellan behandlade och icke-behandlade. Till exempel kan gruppen med behandlade personer vara yngre och ha färre rökare, vilket ju i sin tur kan påverka utfallet. Detta problem har man inte i randomiserade studier då randomiseringen ser till att alla dessa faktorer fördelas jämnt mellan interventionsgrupp och behandlingsgrupp. Om man bara skulle göra en jämförelse mellan behandling och utfall (d.v.s. utan justering) kan en ojämn fördelning av patientkaraktäristika mellan grupper innebära risk för felkällor och bias. Syftet med en propensity score är att, på statistisk väg, fördela patientkaraktäristika jämt mellan behandlade (interventionsgrupp) och icke-behandlade (interventionsgrupp). På så sätt efterliknar man den randomiserade studien på statistisk väg. Detta minskar alltså risken för bias och felkällor påtagligt.

Hos personer som har samma sannolikhet för behandling (d.v.s. samma propensity score) kan man föreställa sig att det är slumpen som har avgjort huruvida de har fått behandling eller ej. Detta tillåter oss att göra en mer rättvis jämförelse.

Propensity score jämfört med traditionella metoder.

Traditionella sätt att justera för olikheter mellan grupper inkluderar matchning, stratifiering och multipel regression. Dessa metoder har dock sina nackdelar och kan ibland vara otillräckliga. Propensity score erbjuder vissa fördelar. Propensity score kan även kombineras med ovan nämnda metoder.

Vid matchning identifierar man kontrollindivider (icke-behandlade personer) som är så lika fallen (behandlade personer) som möjligt. Exempelvis, för varje behandlad person som är höginkomsttagare väljer man en icke-behandlad person som också är höginkomsttagare. En nackdel med detta är dock att det inte sällan är svårt att hitta tillräckligt stort antal kontrollindivider. Det ställer alltså krav på att studiepopulationen är tillräckligt stor. Antalet kontrollindivider som behövs ökar dessutom med antalet variabler som man vill matcha till.

Stratifiering innebär att man delar upp hela studiepopulationen i grupper (strata) utifrån de variabler man vill justera för. Exempelvis, om man vill justera för effekten av könsskillnader kan man stratifiera utifrån kön. Detta innebär att kvinnor och män analyseras var för sig. Resultatet av detta blir samma som vid matchning, det vill säga, att man kontrollerar för effekten av kön på utfallet. Nackdelen med stratifiering är dock att det minskar studiens power. Med power avses möjligheten att detektera signifikanta skillnader mellan grupper. Skälet till detta är följande. För varje variabel (karaktäristika) som man stratifierar för, delas studiepopulationen upp i två grupper. Alltså, desto fler variabler man stratifierar för, desto fler subgrupper skapar man inom den totala studiepopulationen. Man riskerar därmed att dela upp studiepopulationen i grupper som är så små att det inte längre blir möjligt att göra meningsfulla jämförelser.

Multipel regression (till exempel linjär regression, logistisk regression eller Cox regression) tillåter att man justerar/korrigerar för effekten av en eller flera variabler (patientkaraktäristika). Exempelvis, om patienter i behandlingsgruppen är äldre än de icke-behandla kan man bygga en regressionsmodell där man inkluderar variabeln ålder. På så vis kan man kontrollera för den eventuella effekten av ålder. Justering/korrigering genom multivariabel regression är ett av de vanligaste sätten att hantera skillnader mellan grupper och minska risken för bias. En nackdel med denna metod är att antalet variabler (patientkaraktäristika) som man kan inkludera i en regressionsmodell är begränsat. Ofta försämras regressionsmodellens resultat av allt för många variabler. Generellt gäller alltså att desto fler variabler man inkluderar i en regressionsmodell, desto mindre tillförlitliga kan resultaten bli. Det kan också vara så att antalet utfall i ens dataset är för få för att kunna göra en tillförlitlig regressionsmodell. Det kan i sådana fall vara fördelaktigt med propensity score. Vissa anser också att det är enklare att kontrollera att en propensity har genomförts korrekt än motsvarande vid multipel regression. Det är förhållandevis enkelt att bedöma huruvida man med hjälp av en propensity score har lyckats uppnå adekvat balans mellan behandlade och obehandlade (v.g. se nedan). Detta kan jämföras med tester för att avgöra model fit vid en multipel regression, som egentligen inte säger något om hur pass mycket bias man har lyckats eliminera.

Sammanfattningsvis kan man säga att traditionella metoder för justering (så som matchning, stratifiering och multivariabel regression) kan vara otillräckliga när man behöver justera/kontrollera för ett stort antal variabler. Det skall dock betonas att samtliga, ovan beskrivna metoder, går att kombinera med propensity score. En propensity score sammanfattar informationen från alla variabler (patientkaraktäristika) till ett värde och betecknar sannolikheten för att en patient (utifrån samtliga variabler) har fått behandling eller ej. Följaktligen utgörs propensity score av ett värde som beskriver sannolikheten för behandling. Denna sannolikhet beräknas utifrån samtliga variabler (patientkaraktäristika). Personer i behandlingsgruppen (interventionsgrupp) med ett visst värde på propensity score är troligen väldigt lika personer i den obehandlade gruppen (kontrollgrupp) med samma propensity score. Denna metod kan alltså hjälpa en att ta hänsyn till den ojämna fördelningen av patientkaraktäristika som annars förekommer i (icke-randomiserade) observationsstudier.

När man väl har beräknat propensity score för samtliga personer kan det användas för att justera/korrigera för olikheter genom matchning, stratifiering eller multivariabel regression, eller genom en kombination av dessa.

Definition av propensity score

Den formella definitionen av propensity score är följande. Propensity score är ett värde som anger sannolikheten att ha fått behandling, givet samtliga variabler (patientkaraktäristika). Formellt kan detta beskrivas som:

ei = pr(Zi = 1 | Xi)

Där ei betecknar beräknad propensity score, och Zi = 1 att personen har fått behandling. Xi står för observerade variabler (patientkaraktäristika vid baseline).

Sammanfattningsvis uppskattar propensity score sannolikheten för behandling – pr(Zi = 1) – givet samtliga observerade variabler (patientkaraktäristika)

Följaktligen bör observerade variabler vara jämt fördelade mellan behandlade och obehandlade personer med samma propensity score. Detta innebär alltså att om en behandlad person och en obehandlad person både har samma värde på propensity är behandlingen det enda som skiljer de åt, och alla andra patientkaraktäristika bör vara lika. Man antar då att det är slumpen som har avgjort huruvida de har fått behandling eller ej. Genom att tillämpa propensity score i en observationsstudie efterliknar man den randomiserade studien. Detta ökar möjligheter att dra slutsatser om kausalsamband (orsakssamband).

 

Fortsätt till del 2: Propensity score: praktiska exempel