Gå till index

Lilla Forskarskolan: Forskningsmetoder och Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande och deskriptiva analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Skapa prediktionsmodeller med Tidymodels
    6 Ämnen
  12. Hypotestester och epidemiologiska mått
    5 Ämnen
Avsnitt Progress
0% färdig

Innan vi diskuterar kausalitet behöver vi definiera inferens. Det engelska ordet inference kan översättas till slutledning på svenska. Slutledningsförmåga är förmågan att dra rätt slutsatser i ett sammanhang. Det kan tyckas självklart men inom forskning och analys är korrekt inferens en stor utmaning som kräver kunskap om kausalitet.

Kausalitet (orsakssamband) beskriver en relation mellan två ting eller händelser Ett kausalt samband är ett orsakssamband, vilket innebär att ett ting/händelse påverkar eller orsakar ett annat ting/händelse. Ett sådant samband sägs uppvisa orsak och verkan.

Kausalitet är fundamentalt inom all forskning och analys, vilket förklaras av att kausala samband gör det möjligt att påverka händelseförlopp. Att kunna påverka ett händelseförlopp kan vara skillnaden mellan liv och död för människor. Tyvärr är kausalitet de flesta forskare och analytikers akilleshäl. En erfaren forskare som är tränad i kausal inferens vet att även de mest meriterade professorerna ofta saknar basal förståelse för kausalitet. Förklaringen till detta är enkel: kausalitet är ett svårt ämne som kräver matematisk kompetens. Det är dock möjligt att få en basal förståelse för kausalitet utan matematiska formler.

[...] To appreciate the extent of this denial readers would likely be stunned to learn that only a few decades ago scientists were unable to write down a mathematical equation for the obvious fact that “Mud does not cause rain.” Even today, only the top echelon of the scientific community can write such an equation and formally distinguish “mud causes rain” from “rain causes mud.”

Pearl. The Seven Tools of Causal Inference, with Reflections on Machine Learning.

Kausala formuleringar och frågor

Du har ställt kausala frågor och gjort kausala uttalanden hela livet. Exempel på kausala frågor följer:

  • Kan blodtrycksmediciner förebygga hjärtinfarkt?
  • Kommer användning av blodtrycksmediciner öka sjukvårdskostnader?
  • Påverkas våra intäkter om vi höjer priset på produkterna?
  • Hur stort lidande orsakas av slarv inom sjukvården?
  • Leder Systembolagets alkoholmonopol till lägre alkoholmissbruk?

Dessa frågor karaktäriseras av ordval som antyder ett kausalt samband. Exempel på ord med kausal mening är orsakar, påverkar, ökar, minskar, leder till, förebygger, etc. Vi använder dessa ord i vår vardag utan att reflektera över deras kausala betydelse. Sådan slentrianmässig användning av kausala ord bör undvikas inom forskning och utvveckling. Ord med kausal betydelse skall användas med stor omsorg.

Kausala och icke-kausala (associationer) samband

I ett kausalt samband skall orsaken alltid föregå verkan och all verkan har minst en orsak. I detta kapitel används nedanstående beteckningar för att beskriva samband. Orsak och verkan kan också kallas exponering och utfall. Exponering (E) är den faktor/händelse som påverkar utfallet (U).

Kausala samband betecknas med bokstaven K på pilen.

graph TD; E(Exponering) --> |K| U(Utfall) style U fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Associationer betecknas med bokstaven A på pilen.

graph TD; E(Exponering) --> |A| U(Utfall) style U fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Okända samband betecknas med ett frågetecken (?) på pilen.

graph TD; E(Exponering) --> |?| U(Utfall) style U fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

En association är ett samband mellan två variabler. Associationens natur och styrka säger ingenting om varför sambandet existerar. Sambandet kan vara kausalt eller icke-kausalt (dvs förklaras av något annat). Associationer ger således ingen information om sambandets förklaring.

Nedanstående figur illustrerar ett kausalt och ett icke-kausalt samband som härrör från rökning. Detta är ett klassiskt exempel på ett icke-kausalt samband, nämligen sambandet mellan gula fingrar och lungcancer. Sambandet har rapporterats i många studier. Sambandet är inte ett orsakssamband och är således en association. Alla samband som inte är kausala är per definition associationer. Även om associationer inte ger oss en möjlighet att påverka ett utfall (t ex lungcancer) är vi ofta intresserade av dem eftersom de kan fungera som viktiga ledtrådar och riskmarkörer.

graph LR; R(Rökning) --> |K| LC(Lungcancer) R --> |K| G(Gula fingrar) --> |A| LC style LC fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px style G fill:#80e5ff, stroke: #0088aa, stroke-width:1px

Ovanstående flödesschema är en förenkling av verkligheten. För att rökning skall orsaka lungcancer krävs en rad cellulära förändringar som slutligen utmynnar i cancer. Det innebär att det finns mediatorer mellan rökning och lungcancer.

I nästa flödesschema illustreras mediatorer mellan genetisk variation och hjärtattack. Flödesschemat visar ett sekventiellt flöde från genvarianter till hjärtinfarkt. Samtliga nedanstående samband är kausala, vilket förklarar varför människor med höga blodfetter oftare drabbas av hjärtinfarkt. Varje element/händelse i flödesschemat är en orsak till nästa. Alla element/händelser mellan det första och det sista kallas mediatorer, eftersom de medierar effekter. Det innebär också att om man förhindrar mediation i något steg så kan man förebygga hjärtinfarkter.

graph TD; G(Genetisk predisposition) --> |K| LDL(Högt LDL kolesterol) --> |K| A1(Kolesterolinlagring i blodkärl) --> |K| I(Inflammation) --> |K| Athero(Åderförkalkning) --> |K| AMI(Hjärtattack) style AMI fill:#ffaaaa, stroke: #9d2a2a, stroke-width:2px

Man bör använda termen association för alla samband som inte är kausala. Ibland används termen korrelation synonymt med association, men det bör undvikas eftersom korrelationsanalys är en specifik matematisk analys (som indikerar att det föreligger ett linjärt samband mellan två variabler).

Nästa flödesschema förtydligar varför det är svårt att kartlägga kausala samband. I schemat finns 9 riskfaktorer för hjärtattack och pilarna visar associationer, kausala samband eller samband med okänd natur. Schemat är faktiskt en grov förenkling av verkligheten, eftersom flertalet riskfaktorer påverkar varandra i flera led.

graph LR; Athero(Åderförkalkning) --> |K| AMI(Akut hjärtinfarkt) S(Rökning) --> |K| I(Inflammation i kranskärl) --> |K| Athero L(Höga blodfetter) --> |K| LDL(Kolesterol i kranskärl) --> |K| Athero D(Diabetes) --> |A| Glu(Högt blodsocker) --> |K| Athero O(Bukfetma) --> |A| Athero H(Hypertoni) --> |K| Athero PS(Psykosocial stress) --> |?| AMI F(Frukt och grönsaker) --> |?| AMI Alc(Alkohol) --> |?| AMI PA(Fysisk aktivitet) --> |K| AMI O--> |K| D D--> |A| L D--> |K| H style AMI fill:#ffaaaa, stroke: #9d2a2a, stroke-width:2px

Kausal hierarki

Korrekt kausal inferens kräver kunskap om kausala hierarki, som beskriver kvaliteten på information från ett kausalt perspektiv. Kausal hierarki har tre nivåer, där första nivån (1) har lägst kvalitet och högsta nivån (3) representerar högsta kvaliteten ur ett kausalt perspektiv. Skillnaden på nivåerna i hierarkin är tydliggörs genom den fråga som kan besvaras med information från hierarkin.

graph LR; subgraph Forsta[Lägsta nivån] A("1. Association") --> S1("Fråga: Är det vanligare med hjärtattack bland<br>personer med högt blodtryck?") end subgraph Andra[Andra nivån] B("2. Intervention") --> S2("Fråga: Minskar risken för hjärtattack om<br>vi sänker blodtrycket?") end subgraph Tredje[Högsta nivån] C("3. Counterfactual") --> S3("Fråga: Vad hade hänt om vi inte hade behandlat<br> patienterna med blodtryckssänkande medicin?") end style S1 fill: #ffcbaa, stroke-width:0px style S2 fill: #ffcbaa, stroke-width:0px style S3 fill: #ffcbaa, stroke-width:0px style Tredje fill: #ffffff, stroke-width:1px style Andra fill: #ffffff, stroke-width:1px style Forsta fill: #ffffff, stroke-width:1px

Nivå 1: Associationer

Associationer är endast statistiska samband, oaktat sambandens natur. En association föreligger exempelvis mellan övervikt och diabetes, vilket vi kan bekräfta genom att studera kroppsvikt bland personer med diabetes och jämföra med kroppsvikt bland de utan diabetes. En sådan analys skulle bekräfta att övervikt är vanligare bland personer med diabetes, och därmed har vi konstaterat att det finns en association mellan diabetes och övervikt. Det är omöjligt att utifrån sådana data klargöra om det finns ett kausalt samband mellan övervikt och diabetes. En association är således den lägsta nivån i den kausala hierarkin. Den matematiska formeln för en association är som följer:

\(P(y|x)\)

I exemplet med diabetes kan vi skriva: \(P(diabetes|övervikt)\). Detta utläses som "\(P\) är sannolikheten för att utfallet \(y\) blir diabetes om variabeln \(x\) är övervikt".

Associationsanalyser är de vanligaste analyserna inom all forskning och analys. Det innebär följaktligen att majoriteten av alla analyser inom all forskning och utveckling har lägsta kvalitet ur ett kausalt perspektiv. Klassiska hypotestester, regressionsmodeller och machine learning är exempel på associationsanalyser.

Fördelen med associationsanalyser är att de ofta kan genomföras snabbt till en låg kostnad. Ofta används redan insamlade (observerade) data som analyseras med olika mer eller mindre sofistikerade metoder. Det faktum att data redan är insamlat innebär att det inte går att påverka den datagenererande mekanismen, vilket som regel innebär att data lämnar en del att önska.

Datavolymen har ingen inverkan på en associationsanalys kausala kvalitet. Kausal kvalitet ökar inte o antalet observationer ökar från 10000 till 1000000. Problemet med rent observationella data kvarstår oberoende av stickprovets storlek (antal observationer).

Nivå 2: Interventioner (Experiment)

En intervention är alltid ett experiment. Genom att genomföra ett experiment kan man påverka data, (istället för att bara observera data). Ett experiment kan genomföras på makronivå (exempelvis genom att stifta lagar som förbjuder ett visst livsmedel), lokal nivå (exempelvis genom att genomföra en läkemedelsstudie på patienter med högt blodtryck) eller cellulär nivå (exempelvis genom knockout av en gen). Alla typer av interventioner som påverkar observerade data utgör ett experiment. Naturliga experiment är sådana som äger rum oavsiktligen (från analytikerns perspektiv). Exempel på ett naturligt experiment är hur den ekonomiska krisen på Kuba påverkade insjuknandet i diabetes och hjärtkärlsjukdom under 1980-talet (Franco et al). Exempel på ett onaturligt experiment är en läkemedelsstudie där deltagarna slumpmässigt exponeras för ett nytt läkemedel. Experiment som designats gör det möjligt att påverka den datagenererande mekanismen, vilket borgar för hög kvalitet ur ett kausalt perspektiv. Interventioner kan beskrivas med en matematisk formel:

\(P(y|do(x), z)\)

Vilket utläses som "\(P\) är sannolikheten för att \(Y=y\), givet att vi påverkar \(X\) till att vara \(x\) och därefter observerar att eventet \(Z=z\)".

Randomiserade kontrollerade studier (prövningar)

En randomiserad kontrollerad studie (eng. randomized controlled trial, RCT) är ett experiment där studieenheterna (exempelvis patienter, försöksdjur, celler, bakterier, virus, etc) utsätts för en intervention där exponeringen tilldelas slumpmässigt. Exponeringen kan exempelvis vara en läkemedelsbehandling eller ett ekonomiskt bidrag. I figuren nedan illustreras detta genom fyra indvidier som randomiseras till antingen placebo (ingen behandling) eller behandling (med ett läkemedel). Om randomiseringen ger 50% chans att få placebo och 50% chans att få behandling kommer vi ha två grupper som endast skiljs åt i ett enda avseende: behandlingen. Grupperna kommer vara identiska i alla andra avseenden, vilket inkluderar ålder, könsfördelning, inkomst, tidigare sjukdomar, etnicitet, religionstillhörighet, kostvanor, motionsvanor, hårfärg, etc. Alla karaktäristika kommer fördelas helt jämnt mellan de båda grupperna tack vare randomiseringen. Det är randomiseringen som leder till att det enda som skiljer grupperna åt är behandlingen. Om det följaktligen observeras skillnader i utfallet så kan skillnaden tillskrivas behandlingen.

graph TD; I1(Individ 1) --> R1(Randomisering) --> P1(Placebo) & S1(Behandling) I2(Individ 2) --> R2(Randomisering) --> P2(Placebo) & S2(Behandling) I3(Individ 3) --> R3(Randomisering) --> P3(Placebo) & S3(Behandling) I4(Individ 4) --> R4(Randomisering) --> P4(Placebo) & S4(Behandling)

I dagsläget anses den randomiserade kontrollerade studien vara gold standard inom klinisk medicin. Det är ytterst få behandlingar och utredningar som ges högsta rekomendation i frånvaro av randomiserade studier.

Idag har dock en lång rad metoder utvecklats som kan simulera ovanstående på matematisk väg. En av de vanligaste metoderna är propensity score, som är en metod som används både inom machine learning och klassisk regressionsanalys.

Mendels randomisering (Mendelian randomization)

Mendelsk randomisering är ett naturligt experiment som äger rum när en spermie och oocyt (äggcell) bildas. Spermier bildas under spermatogenesen och oocyten under oogenesen. En spermie kan endast få en av faderns två varianter av varje gen och vilken det blir är slumpmässigt. Det samma gäller äggcellen. Det innebär att när en spermie och en äggcell förenas och bildar ett embryo så får fostret ett slumpmässigt urval av genvarianter från mor och far. Denna slump kallas Mendelsk randomisering (från Mendelsk arvgång) och utnyttjas för att dra kausala slutsatser. Detta är möjligt eftersom genvarianterna föregick alla andra händelser i livet och är slumpmässigt tilldelade. Det finns dock faktorer som kan påverka geners uttryck, men det ligger utanför denna diskussionens mål. Mendelsk randomisering har resulterat i hundratals nya effektiva läkemedel.

Nivå 3: Counterfactuals (Kontrafaktisk)

Den högsta kvaliteten på kausalitet representeras av counterfactuals (kontrafaktiskt). Counterfactual reasoning innebär att man resonerar kring vad som hade inträffat om något i det förflutna hade gjorts annorlunda. Med en counterfactual kan en fråga formuleras som följer: vad hade inträffat om vi istället för behandling A hade gett patienten behandling B?

Counterfactuals besitter högre kausal kvalitet än både associationer och interventioner, vilket förklaras av att svaret på en counterfactual även besvarar frågan som ställas på nivå 1 (association) och nivå 2 (intervention). En intervention är således steget innan en counterfactual kan specificeras. Matematiskt beskrivs counterfactual som följer:

\(P(yx |x′,y′)\)

Detta utläses som "\(P\) är sannolikheten för att \(Y=y\) skulle ha observerats om \(X=x\), givet att \(X\) faktiskt var \(x'\) och \(Y\) var \(y'\). Frågan kan formuleras som följer: Vad är sannolikheten för att patienten hade dött om han hade fått behandling A, givet att han faktiskt fick behandling B och inte dog?

Med svar från nivå 3 (counterfactuals) kan även frågor på nivå 2 (interventioner) och 1 (associationer) besvaras. Det omvända gäller inte. Associationsanalyser kan inte besvara frågor som kräver en intervention. Svaret på en intervention besvarar inte en counterfactual. En counterfactual kan vara svår att acceptera konceptuellt eftersom vi jämför verkligheten med en sitaution som aldrig ägt rum.

Kausala grafiska modeller

Kausalt tänkande kan förstärkas genom att använda grafiska representationer. En grafisk model är en beskrivning av kausalitet. Att skapa en grafisk modell innebär att kausala antaganden görs transparent och testbart. Detta är avgörande för att antagandena skall kunna ifrågasättas och omprövas. Ovanstående flödesscheman kan betraktas som kausala modeller.

Läser mer om kausala grafiska modeller här.

Bradford-Hill kriterier för kausalitet

Hills kriterier utvecklades år 1965 av biostatistikern Austin Bradford Hill och har traditionellt använts för att bedöma huruvida ett samband mellan en exponering och ett biologiskt utfall är kausalt. Hill ansåg att nedanstående 9 kriterier är uppfyllda för kausala samband. Hill påpekade dock att det ofta saknas kunskap för att kunna bedöma alla 9 kriterierna och i en sådan situation kan kausalitet inte uteslutas.

NrKriteriumDefinition
1StyrkaEtt svagt samband utesluter inte kausalt samband, men ju starkare sambandet är, desto mer sannolikt är det att det är kausalt.
2ReproducerbarhetOm upprepade undersökningar, genomförda på olika platser, med olika dataunderlag, av olika personer, påvisar samma samband, så stärker det sannolikheten för att sambandet är kausalt.
3SpecificitetOm sambandet mellan exponeringen och utfallet är mycket specifikt och det saknas en annan trolig förklaring, så indikerar det att sambandet är kausalt.
4TemporalitetOrsaken måste alltid föregå verkan (utfallet).
5Dos-responsOm dosen av exponeringen ökar eller minskar skall detta påverka sannolikheten för utfallet.
6TrovärdighetOm det finns kunskap om sjukdomsmekanismer så skall denna kunskap indikera att sambandet är patofysiologiskt rimligt.
7KoherensDet skall föreligga en överensstämmelse mellan fynd från olika domäner (epidemiologi, kliniska prövningar, laboratoriefynd), som alla indikerar samma samband.
8ExperimentExperiment som möjliggör att exponeringen tilldelas slumpmässigt bör indikera att exponeringen påverkar utfallet.
9AnalogiOm det existerar kunskap eller observationer från andra sammanhang som kan överföras till det aktuella sammanhanget, så talar det för kausalitet.
Bradford-Hill kriterier för kausalitet.

Hills kriterier är flera decennier gamla och saknar flera essentiella komponenter i modern kausal inferens. Exempelvis används inte resonemanget med counterfactuals i Hills kriterier. Hills kriterier bör endast användas som ett komplement till övriga metoder.

Icke-kausala samband

Systematiska fel i inferens kallas bias. Det finns en lång rad olika typer av bias men här nedan nämns bara de som berör sambandsanalysen.

Confounding (skensamband)

Confounding är också en typ av association. En confounder (störfaktor, förväxlingsfaktor) är en faktor som förklarar associationen som observeras för en annan faktor. I nedanstående flödesschema är rökning en confounder för nedsatt lungfunktion. Rökning orsakar både nedsatt lungfunktion och lungcancer. Personer som drabbas av lungcancer har ofta nedsatt lungfunktion, vilket är en association.

graph LR; E(Nedsatt lungfunktion) --> |A| LC(Lungcancer) S(Rökning<br>confounder för fysisk aktivitet) --> |K| E S --> |K| LC style LC fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Om nedsatt lungfunktion var exponeringen som undersöktes i ovanstående studie och justering inte görs för rökning så kommer ett samband observeras mellan nedsatt lungfunnktion och lungcancer. Detta samband är då ett falskt samband (skensamband) och försvinner om justering görs för rökning (eftersom rökning är en confounder).

En confounder uppfyller följande kriterier:

  1. En confounder är associerad med både exponeringen och utfallet som undersöks.
  2. En confounder påverkas inte av exponeringen som undersöks.
AssociationJustering krävs i modeller
ConfounderJa

Mediator (Mediation)

Mediation är också en typ av association. En mediator utgör ett mellansteg på den kausala vägen (eng. causal pathway). Nedanstående flödesschema visar att vikt är en mediator mellan fysisk aktivitet och blodtryck. Fysisk aktivitet påverkar blodtrycket direkt men fysisk aktivitet kan också påverka vikten, vilket i sin tur påverkar blodtrycket.

graph LR; E(Fysisk aktivitet) & V(Vikt<br>mediator för fysisk aktivitet) --> |K| B(Blodtryck) E --> |K| V style B fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Om en statistisk modell konstrueras med blodtryck som utfall bör vikt (mediator) inte vara med som kovariat eftersom vikt kommer "mediera bort" effekten av fysisk aktivitet, såvida inte syftet är att kvantifiera hur stor del av effekten av fysisk aktivitet som medieras genom vikt.

AssociationJustering krävs i modeller
MediatorNej, om inte syftet är att kvantifiera mediation

Collider

Collision (kollision) är ytterligare en typ av association. En collider är en faktor som påverkas av både exponeringen och utfallet. I nedanstående exempel är välmående en collider eftersom både exponeringen (fysisk aktiviet) och utfallet (vikt) påverkar välmående. Att justera en analys för en collider leder som regel till felaktiga slutsatser.

graph TD; E(Fysisk aktivitet) & W(Vikt) --> V(Välmående<br>collider) style W fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Kovariat (Covariate)

Ordet kovariate kommer från engelskans covariate (co-variation), dvs samvariation. En kovariat är en variabel som samvarierar med en annan. En kovariat kan påverka utfallet. När man skapar regressionsmodeller kallas prediktorerna ibland för kovariater.

graph TD; E(Fysisk aktivitet) & W(Vikt) --> V(Välmående) I(Inkomst<br>kovariat)-->V style W fill:#ffaaaa, stroke: #9d2a2a, stroke-width:1px

Moderator

En moderator modifierar effekten av en annan orsak. Nedanstående figur visar en moderator mellan exponeringen och utfallet. En sådan moderator kan förstärka eller försvaga sambandet mellan utfallet och exponeringen.

graph LR; E(Exponering) --> |"(Moderator)"| U(Utfall) E(Exponering) --> |Direkt efekt| U(Utfall) E --> M(Mediator) --> U C(Confounder) --> E & U CV(Kovariat) --> U