Gå till index

Analys med R

0% färdig
0/0 Steps
  1. Analys och forskning med R och Posit (Rstudio)
  2. Grunderna i R och Rstudio
    7 Ämnen
  3. Importera, exportera, spara och ladda data
    5 Ämnen
  4. Strängar och regular expressions (regex)
    1 Ämne
  5. Bearbetning av data med dplyr
    12 Ämnen
  6. Visualisera och presentera
    14 Ämnen
  7. Explorerande analyser
    6 Ämnen
  8. Prediktionsmodeller
    12 Ämnen
  9. Klassisk regressionsanalys
    8 Ämnen
  10. Machine learning (ML) och Artificiell Intelligens (AI)
    9 Ämnen
  11. Prediktionsmodeller: Tidymodels
  12. Hypotestester
    1 Ämne
Avsnitt 8, Ämne 3
Startad

Osäkerhet (Uncertainty)

Avsnitt Progress
0% färdig

Forskare som inte är skolade i matematiska discipliner är som regel ovana vid betydelsen av slump och osäkerhet. Dessa två fenomen intar en särställning i all forskning och analys. Att förstå slump, osäkerhet och kausalitet (orsakssamband) är fundamentalt för den som vill förstå händelser i ett system (t ex människokroppen).

Ett deterministiskt system är ett system där processer kan förutsägas med hög precision. Systemet kan vara biologiskt, fysiskt, ekonomiskt eller kemiskt. Många processer som vi vid första anblick uppfattar som slumpmässiga är faktiskt deterministiska. Kast med tärning är ett sådant exempel. Det är möjligt att med hög precision förutsäga vilken siffra tärningen visar om man har information om tärningens rörelsriktning och hastighet i det ögonblicket den kastas. För att kunna analysera data och förstå händelser i ett system måste vi känna till vilka mekanismer som påverkar systemet.

All models are wrong. Some are useful.

John Tukey

Detta problem är uppenbart inom medicinsk forskning. Den som granskar kliniska prediktionsmodeller vet att även de mest avancerade och använda modellerna har stora brister och misslyckas med att identifera sjukdomsfall i en betydande andel av patienterna. Ett exempel där detta är tydligt är prediktion av hjärtstopp. I dagsläget finns ingen prediktionsmodell som med hög precision kan förutsäga om man kommer drabbas av ett hjärtstopp i framtiden. Förklaringen till detta är att biologiska processer är stokastiska, vilket innebär att det finns en slumpprocess som påverkar systemet. I exemplet med prediktion av hjärtstopp kan en individ drabbas av diabetes, högt blodtryck och en hjärtattack en tid efter att prediktionsmodellen använts och då gäller inte längre prediktionen som gjordes (personen har nu högre risk för hjärtstopp). Ytterligare ett exempel är blodets förmåga att koagulera, vilket kan variera från en minut till en annan beroende på inre (t ex stress) och yttre (t ex avgaser) omständigheter.

De flesta prediktionsmodeller som används beräknar modelles osäkerhet. I modellen ovan görs detta i form av error (epsilon), som kvantifierar hur stor skillnaden är mellan predikterade värden och observerade värden.

Det finns många orsaker till att prediktionsmodeller är osäkra, exempelvis:

  • Biologiska system är komplexa, med inre och yttre stokastiska processer
  • Osäkerhet i data (mätfel, missing data, etc).
  • Modellen är suboptimal.

Referenser

Stochastic modelling for quantitative description of heterogeneous biological systems Darren J. Wilkinson. Nature Reviews Genetics (2009).