Forskare som inte är skolade i matematiska discipliner är som regel ovana vid betydelsen av slump (randomness) och osäkerhet (uncertainty). Dessa två fenomen intar en central ställning i all forskning och analys. Att förstå slump, osäkerhet och kausalitet (orsakssamband) är avgörande för den som vill förstå händelser i ett system (t ex människokroppen).
Ett deterministiskt system är ett system där processer kan förutsägas med hög precision. Systemet kan vara biologiskt, fysiskt, ekonomiskt eller kemiskt. Många processer som vi vid första anblick uppfattar som slumpmässiga är faktiskt deterministiska. Kast med tärning är ett sådant exempel. Det är möjligt att med hög precision förutsäga vilken siffra tärningen visar om man har information om tärningens rörelsriktning och hastighet i det ögonblicket den kastas. För att kunna analysera data och förstå händelser i ett system måste vi känna till vilka mekanismer som påverkar systemet.
All models are wrong. Some are useful.
John Tukey
Detta problem är uppenbart inom medicinsk forskning. Den som granskar kliniska prediktionsmodeller vet att även de mest avancerade modellerna har stora brister och misslyckas att identifera sjukdomsfall i en betydande andel av patienterna. Ett exempel där detta är tydligt är prediktion av hjärtstopp. I dagsläget finns ingen prediktionsmodell som med hög precision kan förutsäga om man kommer drabbas av ett hjärtstopp i framtiden. Förklaringen till detta är att biologiska processer är stokastiska, vilket innebär att det finns en slumpprocess som påverkar systemet. I exemplet med prediktion av hjärtstopp kan en individ drabbas av diabetes, högt blodtryck och en hjärtattack en tid efter att prediktionsmodellen använts och då gäller inte längre prediktionen som gjordes (personen har nu högre risk för hjärtstopp). Ytterligare ett exempel är blodets förmåga att koagulera, vilket kan variera från en minut till en annan beroende på inre (t ex stress) och yttre (t ex avgaser) omständigheter. Biologiska system är oerhört komplexa och svåra att predicera, med undantag för monogena sjukdomar (dvs sjukdomar där förekomst av en mutation som regel leder till sjukdomsutveckling).
De flesta prediktionsmodeller som används beräknar modelles osäkerhet. Osäkerheten brukar betecknas med error (epsilon, ε), som kvantifierar hur stor skillnaden är mellan predicerade värden och observerade värden.
Det finns många orsaker till att prediktionsmodeller är osäkra, exempelvis:
- Biologiska system är komplexa, med inre och yttre stokastiska element.
- Osäkerhet i data (mätfel, missing data, etc).
- Modellen är suboptimal.
Error, bias och varians (variance)
Error är således modellens prediktionsfel, vilket är skillnaden mellan modellens predicerade värde och det faktiskta (observerade värdet). En bra modell producerar små error och vice versa. En del av error kan inte reduceras, vilket är den delen av error som förklaras av avsaknad av variabler och data. Den delen av error som kan reduceras kan indelas i bias och varians (eng. variance).
En bra modell lär sig sambandet i träningsdata (som modellen "sett" under träningen) och predicerar med hög precision i testdata (som modellen inte "sett" under träningen). Hög bias är ofta ett resultat av att modellen är simplistisk och inte lyckas fånga sambanden i data. Det leder till underfitting, dvs modellen klarar inte att predicera i varken träningsdata eller testdata. Vissa typer av modeller är oerhört flexibla (särskilt machine learning) och kan bli mycket komplexa, vilket leder till att de predicerar perfekt i träningsdata (låg bias). Tyvärr har dessa modeller sämre prediktion på testdata, vilket innebär att variansen är hög (overfitting).
Balansen mellan bias och varians är ett fundamentalt problem. Modeller med låg bias (dvs modeller som är bra på att lära sig träningsdata) har svårare att generalisera till testdata och får därmed hög varians. Den som arbetat med prediktionsmodeller vet att åtgärder som minskar bias leder ofta till ökad varians.
Bias-varians balanseras genom att skatta modellens parametrar med hjälp av resampling (t ex korsvalidering [cross validation]).