Gå till index

Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Prediktionsmodeller: Tidymodels
  12. Hypotestester
    1 Ämne
Avsnitt 9, Ämne 5
Startad

Överlevnadsanalys (Survival Analysis)

Avsnitt Progress
0% färdig

Överlevnadsanalys

Överlevnadsanalys är ett kraftfullt verktyg för att studera händelser (events). Centralt för överlevnadsanalys är information om observationstid. Med överlevnadsanalys studeras nämligen tid till en händelse inträffar. I engelsk litteratur används termerna survival analysis eller time-to-event analysis. Den sistnämnda termen, time-to-event analysis, är egentligen den mest korrekta eftersom dessa analyser kan användas för att studera alla typer av händelser, inte bara död. I detta kapitel kommer vi dock använda död som exempel eftersom det underlättar förståelsen.

Fundamentet i överlevnadsanalys är Kaplan-Meier metoden och Cox regression. Originalpublikationerna för dessa metoder är bland de mest citerade verken någonsin i medicinsk forskning (1, 2).

För att genomföra överlevnadsanalys behövs information om observationstid, dvs tidsperioden då individen observeras. I dess renaste form startar observationstiden när individen inkluderas i studien och observationstiden slutar när händelsen inträffar eller när studiens uppföljningsperiod är slut. Tidsperioden då individen observeras kallas survival time.

Överlevnadsanalys kan användas för att studera tid till händelser för andra organismer (exepelvis djur, bakterier), virus, eller till och med teknisk utrustning (exempelvis mobiltelefoner). Om syftet är att studera tid till en händelse inträffar kan överlevnadsanalys användas oavsett vilken typ av enhet som studeras.

Syftet med överlevnadsanalys är som följer:

  1. Studera överlevnadsprocessen.
  2. Studera hur olika prediktorer (variabler) påverkar överlevnad.
  3. Skapa en prediktionsmodell som predicerar (förutsäger) överlevnad.

För att studera överlevnadsprocessen kan man använda deskriptiva metoder, varav den viktigaste är Kaplan-Meier estimatorn. Med Kaplan-Meiers metod får man en grafisk (och matematisk) beskrivning av överlevnad. Med metoden kan man även jämföra överlevnaden mellan två eller flera grupper. Metoden är dock en rent deskriptiv beskrivning av överlevnad och tillåter därmed inte analys av hur olika prediktorer påverkar överlevnaden.

För att studera hur olika prediktorer påverkar överlevnaden krävs regressionsanalys. I dagsläget domineras överlevnadsanalys av Cox regression (Cox Proportional Hazards Model) som gör det möjligt att skapa en regressionsmodell för överlevnad. Cox regression är ett oerhört kraftfullt verktyg och det publiceras dagligen tusentals artiklar där Cox regressionen utgör studiens huvudmetod.

Kaplan-Meier estimatorn och Cox regression är de viktigaste verktygen att behärska och därför kretsar den fortsatta diskussionen kring dessa två metoder.

Överlevnadsanalys vs. logistisk regression

Med överlevnadsanalys studeras således dikotoma (binära) händelser (events). Syftet är att studera om en händelse inträffar eller uteblir. I det avseende har överlevnadsanalys likheter med logistisk regression (se Logistisk Regression). Faktum är att logistisk regression också används för att studera binära händelser, inklusive överlevnad. Logistisk regression är dock (i princip) alltid ett sämre val än överlevnadsanalys för att studera överlevnad om det finns information om observationstid. Detta beror på att logistisk regression inte kan beakta observationstiden. Själva observationstiden är nyckeln till överlevnadsanalysen (det är faktiskt survival time distributionen som studeras vid överlevnadsanalys) och den kan inte beaktas i en logistisk regression. Låt oss illustrera detta med ett överdrivet exempel:

Vi studerar effekten av läkemedel A och B som gavs till 10 patienter med lungcancer. Dessa patienter följdes från inklusion upp till 10 år. När uppföljningen var slut var samtliga patienter döda (se figur ovan). Det innebär att lika många avled i båda grupper när studiens uppföljning var slut. Vi genomför en logistisk regression där överlevnad studeras (som ett binärt utfall) vid följande tidpunkter:

  • Tid 2.5: Vid denna tidpunkt finns ingen skillnad mellan grupperna.
  • Tid 3.5: Vid denna tidpunkt är överlevnaden 5 av 5 i grupp B och 3 av 5 i grupp A. Risken för död är högre i grupp A.
  • Tid 5: Alla i grupp A har dött medan ingen har dött i grupp B. Risken för död i grupp A är oändligt mycket högre än i grupp B.
  • Tid 10: Alla är döda i båda grupper. Det är ingen skillnad mellan läkemedel A och B.

Det innebär att logistisk regression kan ge mycket opålitliga resultat för en överlevnadsprocess. Figuren ovan visar att läkemedel B sannolikt är bättre än A. Med överlevnadsanalys skulle vi kunna bekräfta detta eftersom överlevnadsanalys inkorporerar själva överlevnadstiden (survival time), vilken skiljer sig mellan grupperna. Med överlevnadsanalys har vi större chans att hitta skillnader i överlevnad. Man bör alltid föredra överlevnadsanalys framför logistisk regression för att studera överlevnad. (Det skall dock nämnas att under särskilda omständigheter kan logistisk regression vara ekvivalent med Cox regression men det diskuteras inte i detta kapitel).

Event (outcome, utfallsmått, händelsen) i överlevnadsanalys

Utfallet i en överlevnadsanalys är en händelse (eng event). Denna händelsen kan vara av i princip vilken typ som helst. Exempel på processer som kan studeras med överlevnadsanalys är som följer:

  • Tid till död
  • Tid till cancerdiagnos
  • Tid till tillfrisknande
  • Tid till inläggning på sjukhus
  • Tid till att man blir arbetslös
  • Tid till en dator måste repareras
  • Tid till att ett livsmedel inte längre kan ätas

Man kan alltså studera alla typer av händelser med överlevnadsanalys. Själva händelsens natur är alltså av underordnad betydelse. Det är dock undersökarens ansvar att definiera en tydlig och meningsfull händelse. Alla personer eller enheter som ingår i populationen skall följas från tidpunkten då de inkluderas i studien (då observationstid startar) tills uppföljningen är slut. Det är viktigt att kunna datera (med så hög precision som möjligt) tidpunkt för händelsen, så att observationstiden kan beräknas med hög precision. Det är exempelvis bättre att registrera survival time i dagar istället för månader. Ju grövre mått på survival time desto sämre precision i analysen.

Prediktorer, kovariater & oberoende variabler

När överlevnadsanalys används för att studera hur olika variabler påverkar utfallet så görs det vanligtvis med Cox regression (Cox proportional hazards model). De variabler som studeras kallas prediktorer (alternativt \(X\), kovariater eller oberoende variabler). Samtliga dessa tre benämningar kan användas och de syftar alltså på samma sak.

Censoring (censurering)

Överlevnadstid (eng survival time) är en kontinuerlig variabel och det kan därför vara lockande att använda linjär regression för att studera överlevnad. Det är dock inte möjligt att använda linjär regression och detta beror på censurering (eng censoring). Det finns en hög sannolikhet för att inte alla personer kommer att drabbas av händelsen som studeras. De personer som överlever hela uppföljningen (dvs de som inte drabbas av händelsen under studiens observationstid) utgör ett matematiskt problem eftersom vi inte kan säga om eller när de kommer att drabbas av händelsen. Dessa personer blir censurerade (eng. censored) när studiens uppföljning slutar (eng end of follow-up). Samma problem uppstår om studiedeltagare hoppar av studien eller av någon annan anledning inte längre kan följas upp. Dessa personer blir också censurerade (eftersom vi inte vet om eller när de kommer att drabbas).

Censurering (censoring) innebär att uppföljningen avslutats och händelsen ännu inte inträffat.

Man skiljer på tre typer av censoring:

  • Right censoring: Om en person fullföljer studien utan att händelsen inträffar, så blir personen right censored. Det innebär att vi endast kan uttala oss om personens öde fram till ögonblicket då uppföljningen slutar. Personer som hoppar av studien (oavsett anledning) blir också right censored.
  • Left censoring: Vi är ofta intresserade av hur en viss exponering, t ex en sjukdom, påverkar överlevnaden. Ofta är det dock okänt när en sjukdomen debuterar (uppkommer). Det är mycket vanligt att sjukdomar har förelegat i många år innan de upptäcks. Om det är okänt när en exponering startade så är individen left censored i det avseendet. Left censoring innebär alltså att det är oklart när individens risk startade. Detta brukar dock inte vara något större bekymmer.
  • Interval censoring: Om en person är både left och right censored så är den interval censored.

Kodning av överlevnadsvariabler

För att analysera överlevnad behövs minst följande två variabler:

  1. Event-variabel: Denna kodas oftast som 0 eller 1 och indikerar om eventet inträffat (1) eller uteblivit (0).
  2. Survival time: Survival time är observationstiden (kontinuerlig variabel).

Figuren ovan visar hur dessa variabler skulle kodas för de 10 personer som följs i grafen.

Informativ vs. non-informativ censoring

Censoring måste vara oberoende av (1) individens kovariater (prediktorer) för överlevnad och (2) hur länge individen har klarat sig i studien. Censoring under studiens gång (innan uppföljningen är avslutad) skall vara slumpmässig, annars föreligger bias i studien. Ponera att vi studerar hur ett läkemedel påverkar risken för död. Läkemedlet visar sig medföra svåra biverkningar, så till vida att många personer som får läkemedlet tvingas hoppa av studien. I det fallet påverkas censoring av en prediktor, nämligen läkemedlet och då uppstår bias eftersom patienterna hoppar av studien innan de hinner utveckla komplikationer. Detta leder till underskattning av antalet events (dödsfall) och därmed överskattning av överlevnad. Den typen av censoring kallas informativ censoring, vilket innebär att censoring inte var slumpmässig. Om censoring är non-informative kommer distributionen av survival time bland censurerade fall vara likartad mellan grupperna som jämförs.

Censoring skall vara non-informativ, vilket innebär att censoring skall vara slumpmässig. Det får inte finnas någon mekanism som påverkar sannolikheten för censoring.

I nästa kapitel diskuteras de två vanligaste metoderna för att studera överlevnad, nämligen Kaplan-Meier metoden och Cox regression.