Sammanfattande Principer för Prediktionsmodellering

Avsnitt Progress

0% färdig

Priciper för effektestimering: modeller som estimerar effekten av en prediktor

Modellen behöver inte vara parsimonious.
Undersökaren väljer själv, utifrån kunskap om området, vilka prediktorer som skall vara med i modellen.
Undersökaren väljer själv, utifrån kunskap om området, hur modellen skall specificeras (interaktioner, splines, stratifiering etc).
Det går utmärkt att kvarhålla icke-signifikanta prediktorer om deras närvaro i modellen gör hela modellen mer realistisk.
Interaktioner måste beaktas och, där det bedöms rimligt, användas. Man skall inte leta efter interaktioner utan eftertanke.
Om predictor of main interest (prediktorn man är särskilt intresserad av) har hög frekvens missing så kan det vara klokt att imputera missing med multiple imputation.
Använd splines och relaxera linjäritets-antagandet frikostigt, särskilt för prediktorer som är starka liksom för predictor of main interest.
Kategorisera inte kontinuerliga variabler såvida det inte finns en bra anledning till detta.
Modellen behöver inte valideras eller kalibreras.
Modell skall helst pre-specificeras.

Priciper för prediktionsmodellering: Modeller som maximerar prediktiv förmåga

Säkerställ att så mycket data som möjligt finns tillgängligt.
Kategorisera inte kontinuerliga variabler.
För överlevnadsanalys (survival analysis) måste uppföljningen var tillräckligt lång för att tillräckligt många events skall inträffa. Power för en överlevnadsanalys beror helt och hållet på antalet events.
Säkerställ att en hypotes är etablerad innan dataanalysen börjar. Att pre-specificera kandidatprediktorer är viktigt.
Man får inte använda utfallsmåtte (Y) för att avgöra vilka prediktorer som bör vara med i modellen. Varken med univariat testning, deskriptiva grafer eller andra hypotestester. Kanddiatprediktorer får inte gallras med dessa metoder.
Om missing för prediktorn X är betydande, överväg multiple imputation.
Om du exkluderar många individer med missing data bör du undersöka om de med missing samt de som kvarstod i modellen skiljer sig. Detta kan göras med deskriptiva tabeller. Helst skall båda populationerna vara lika.
För varje prediktor bör du specificera komplexiteten med vilken den skall modelleras. Det är rekommenderat att linjäritet testas med restricted cubic splines. Prediktorer som är starka bör tillägnas splines med fler knytpunkter (knots).
Reducera antalet prediktorer om de överstiger vad antalet observationer tillåter (se vägledning under punkt 7 ovan).
Utveckla modellen i ett sub-sample av hela samplet. 80% av observationerna kan användas för träning och 20% för validering.
Interaktionstermer skall pre-specificeras och inte sökas omotiverat. Uteslut icke-signifikanta interaktioner.
Använd leverage för att kontrollera om det finns observationer som utövar "för mycket" effekt på modellen.
Undersök om det finns collinearity med hjälp av VIF (variance inflation factor).
Använd bootstrap för att validera modellen.